Articoli tecnici

Sviluppo di un modello di Deep Learning per la diagnosi assistita della patologia

Ong Kok Haur, Laurent Gole, Huo Xinmi, Li Longjie, Lu Haoda, Yuen Cheng Xiang, Aisha Peng e Yu Weimiao, Bioinformatics Institute


Come seconda forma più comune di malattia diffusa tra gli uomini, il cancro alla prostata viene solitamente diagnosticato tramite l'esame di campioni di tessuto. Questo processo, tradizionalmente condotto da patologi esperti utilizzando un microscopio, è molto laborioso e richiede molto tempo. Inoltre, in molti paesi il numero di professionisti sanitari, come i patologi, in grado di effettuare tali ispezioni è limitato, soprattutto quando i carichi di lavoro clinici sono elevati. Ciò può comportare un accumulo di campioni da analizzare e ritardi nell'inizio del trattamento.

Sviluppatasi in parte a causa dei limiti dell'analisi manuale dei campioni, la ricerca sull'uso dell'intelligenza artificiale e del Deep Learnning per supportare la diagnosi delle patologie della prostata e di altre forme di cancro si è rapidamente ampliata. Tuttavia, prima che i modelli di Deep Learning possano essere sviluppati, ottimizzati, validati e implementati per applicazioni cliniche, è necessario superare diversi ostacoli tecnici. Ad esempio, si stima che circa il 15% delle immagini patologiche digitali presenti problemi di qualità legati, tra gli altri, alla messa a fuoco, alla saturazione e agli artefatti. Inoltre, la qualità dell'immagine non può essere valutata quantitativamente a occhio nudo e gli scanner per immagini di diapositive intere (WSI) utilizzati oggi producono set di dati estremamente grandi, il che può complicare l'elaborazione delle immagini con immagini ad alta risoluzione di 85.000 × 40.000 pixel o più. Inoltre, analogamente alla diagnosi patologica manuale, il processo di annotazione delle immagini richiede una notevole quantità di tempo da parte di patologi esperti. Questo processo rende difficile assemblare un database di alta qualità di immagini etichettate per addestrare un modello diagnostico accurato.

Il Computational Digital Pathology Lab (CDPL) presso il Bioinformatics Institute (BII) di A*STAR ha sviluppato una piattaforma di automazione basata su cloud che affronta molte delle sfide associate alla diagnosi patologica assistita dal Deep Learning, riducendo al contempo il carico di lavoro dei patologi per l'etichettatura delle immagini e le diagnosi cliniche (Figura 1). Questa piattaforma include A!MagQC, uno strumento di valutazione della qualità delle immagini completamente automatizzato sviluppato in MATLAB® con Deep Learning Toolbox™ e Image Processing Toolbox™. La piattaforma include anche un modello di classificazione basato sul Deep Learning, addestrato per identificare i modelli di Gleason. Negli esperimenti condotti con patologi locali e stranieri, la piattaforma ha ridotto del 60% i tempi di etichettatura delle immagini rispetto all'annotazione manuale e all'esame microscopico tradizionale, aiutando i patologi ad analizzare le immagini il 43% più velocemente, mantenendo la stessa accuratezza dell'esame microscopico convenzionale.

Diagramma del workflow della piattaforma di immagini di patologia digitale, incluso A!MagQC, uno strumento di valutazione della qualità delle immagini completamente automatizzato.

Figura 1. La piattaforma di analisi delle immagini di patologia digitale, che comprende A!MagQC e A!HistoClouds. A) mostra l'attuale pipeline di valutazione della patologia digitale. B) illustra la pipeline proposta in questo studio, che integra A!MagQC, A!HistoClouds e un modello di intelligenza artificiale in grado di rilevare e classificare il cancro alla prostata per le immagini scansionate da più scanner nella pipeline esistente.

Valutazione della qualità dell'immagine

Nella patologia digitale, i problemi di qualità delle immagini possono essere suddivisi in due categorie: problemi di preparazione dei campioni di tessuto e problemi di scansione (Figura 2). Lacerazioni tissutali, pieghe, bolle d'aria, sovracolorazione e sottocolorazione rientrano nella prima categoria; quando questi problemi vengono rilevati e incidono sulla diagnosi, sarà necessario preparare un nuovo campione. D'altro canto, quando vengono rilevati problemi di contrasto, saturazione e messa a fuoco dell'immagine, è sufficiente rieseguire la scansione del campione esistente, senza dover effettuare alcun ritaglio.

Uno screenshot di A!MagQC che mostra diversi tipi di problemi di qualità dell'immagine in un campione osservato al microscopio.

Figura 2. Problemi di uniformità della texture, contrasto, artefatti, saturazione e messa a fuoco rilevati con A!MagQC. A) mostra l'interfaccia utente semplice e intuitiva di A!MagQC. B) mostra esempi di patch di bassa qualità dalle immagini dell'intera diapositiva. C) mostra l'output di A!MagQC, che è in grado di rappresentare le aree di bassa qualità di un'immagine di un'intera diapositiva sotto forma di mappe di calore.

Che l'analisi venga condotta da patologi o tramite modelli di Deep Learning, tutti questi problemi comuni possono avere effetti negativi. Per questo motivo, il team BII CDPL di A*STAR ha sviluppato algoritmi di elaborazione delle immagini in A!MagQC per rilevare automaticamente i principali fattori che influenzano la qualità delle immagini. Il team ha scelto MATLAB per gli strumenti specializzati che offriva. Ad esempio, quando le immagini erano troppo grandi per essere caricate nella memoria, la funzione bloccoproc di Image Processing Toolbox potrebbe dividere ogni immagine in blocchi di una dimensione specificata, elaborarli un blocco alla volta e quindi assemblare i risultati in un'immagine di output.

Il team ha utilizzato anche gli strumenti MATLAB per creare l'interfaccia utente di A!MagQC e per compilare il codice MATLAB in un eseguibile A!MagQC autonomo da distribuire.

Utilizzando la soluzione QC sviluppata, il team ha quantificato la qualità dell'immagine per identificare le variazioni di colore, luminosità e contrasto per gli indici di luminosità e contrasto (WSI). Questo esercizio ha garantito che il modello di Deep Learning successivamente addestrato avrebbe prodotto risultati diagnostici accurati per l'ampia gamma di scanner attualmente in uso.

Formazione e test del modello

Quando analizzano un campione, i patologi applicano il sistema di classificazione di Gleason, specifico per il cancro alla prostata, per assegnare un punteggio in base al suo aspetto. Oltre al tessuto normale o benigno, le aree del campione possono includere stroma (tessuto connettivo) o tessuto a cui viene assegnato un punteggio di Gleason da 1 a 5, dove 5 è il più maligno (Figura 3). Prima che il team potesse iniziare ad addestrare un modello diagnostico basato sull'intelligenza artificiale per classificare i campioni di tessuto, era necessario assemblare un set di dati di patch di immagini etichettate con queste categorie. Questo compito è stato portato a termine con l'aiuto di patologi che hanno utilizzato A!HistoClouds, che hanno lavorato con immagini la cui qualità era stata controllata tramite A!MagQC. Una volta ottenuto un set di base di patch di immagini etichettate, il team ha eseguito l'aumento dei dati per espandere il set di addestramento riflettendo le singole immagini verticalmente o orizzontalmente e ruotandole di un numero di gradi casuale o mirato.

Vetrini di vari tipi di campioni di tessuto valutati sulla scala di Gleason.

Figura 3. Campioni di tessuto che mostrano stroma, tessuto benigno e tessuto classificato come Gleason 3, Gleason 4 e Gleason 5. Le regioni annotate dai patologi (ciascuna etichettata con le rispettive categorie) in A!HistoClouds verranno estratte come patch. Queste patch verranno utilizzate per l'addestramento del modello.

Lavorando in MATLAB con Deep Learning Toolbox, il team ha creato strutture di modelli di Deep Learning utilizzando reti preaddestrate ResNet-50, VGG-16 e NasNet-Mobile, sostituendo i loro normali livelli di classificazione con un livello di classificazione ponderato (Figura 4). Il team ha anche utilizzato l’opzione multi-gpu di passare da una singola GPU a più GPU per l'addestramento del modello di Deep Learning.

Uno schema della struttura di addestramento del modello di Deep Learning, in cui i normali livelli di classificazione per le reti pre-addestrate ResNet-50, VGG-16 e NasNet-Mobile vengono sostituiti con un livello di classificazione ponderato.

Figura 4. Struttura di addestramento che utilizza uno strato di classificazione ponderato come strategia di ribilanciamento delle classi. I pesi sono inversamente proporzionali al numero di patch dell'immagine per attenuare lo squilibrio nel set di dati.

Il modello viene addestrato e applicato tramite un processo iterativo. Dopo la prima fase di addestramento iniziale su immagini etichettate manualmente, segue una seconda fase semiautomatica in cui i patologi esaminano e modificano le previsioni generate dal modello addestrato (Figura 5). Questa seconda fase viene ripetuta finché il modello non è pronto per essere utilizzato dai professionisti sanitari per supportare le diagnosi cliniche. Il passaggio (a) richiede un'annotazione manuale iniziale da parte di patologi sia junior che senior. Le annotazioni vengono realizzate utilizzando A!HistoClouds, dove vengono estratte come patch utilizzate per addestrare il modello di Deep Learning. Questo modello produrrà quindi la regione di interesse (ROI) prevista per assistere i patologi, da qui il nome di annotazione semiautomatica. Nella fase (b), il modello subirà un apprendimento incrementale, in cui le ROI previste dall'intelligenza artificiale vengono riviste e corrette dai patologi, le ROI vengono estratte come patch e il modello apprende da questi nuovi dati. Il passaggio (b) viene ripetuto finché le prestazioni del modello non raggiungono la convergenza, dove nel passaggio (c), il modello verrà implementato per ottenere un'annotazione/diagnosi completamente automatica che migliorerà il processo decisionale dei patologi.

Struttura di addestramento del modello di Deep Learning, in cui i normali livelli di classificazione per le reti pre-addestrate ResNet-50, VGG-16 e NasNet-Mobile vengono sostituiti con un livello di classificazione ponderato.

Figura 5. Processo iterativo per la formazione.

Passaggi successivi

Da allora, CDPL ha distribuito la sua piattaforma di diagnosi patologica assistita dal Deep Learning su piattaforme cloud globali, garantendo un facile accesso al team di patologi che lavorano in diversi paesi. Il BII di A*STAR sta attualmente lavorando alla validazione e all'ottimizzazione del suo modello di Deep Learning per ulteriori scenari clinici, tra cui diversi spessori di tessuto, meccanismi di colorazione e scanner di immagini. Infine, BII sta valutando la possibilità di estendere lo stesso workflow di valutazione della qualità delle immagini e di Deep Learning oltre al cancro alla prostata, ad altri tipi di cancro.

Il CDPL del BII ha anche organizzato la Automated Gleason Grading Challenge 2022 (AGGC 2022), accettata dalla International Conference on Medical Image Computing and Computer Assisted Intervention del 2022. L'AGGC 2022 si concentra sulle sfide della classificazione Gleason per il cancro alla prostata, sulla leva della patologia digitale e sugli approcci di Deep Learning. La sfida mira a sviluppare algoritmi automatizzati con elevata accuratezza immagini istopatologiche della prostata colorate H&E con elettroforesi delle variazioni del mondo reale. In particolare, questa è la sfida inaugurale nel campo della patologia digitale che studia le variazioni delle immagini e costruisce modelli diagnostici di intelligenza artificiale generalizzabili.

Sebbene la sfida sia conclusa, il set di dati completo è ora disponibile per la ricerca continua.

Ringraziamenti

Il BII di A*STAR desidera ringraziare i colleghi del National University Hospital (NUH), in particolare il Professor Tan Soo Yong e la Dottoressa Susan Hue Swee Shan, il Dottor Lau Kah Weng e il Dottor Tan Char Loo, ecc., per la loro partnership e collaborazione. La NUH è debitamente riconosciuta come l'origine dei dati e dei campioni che hanno contribuito alla ricerca delineata in questo lavoro. Il team è grato per il supporto ricevuto dagli altri partner clinici e industriali.

Pubblicato nel 2024

Visualizza articoli per funzionalità correlate

Visualizza articoli per settori correlati