Articoli tecnici

Controllo guidato dai dati per la riprogrammazione cellulare con MATLAB

Dott. Indika Rajapakse


“MATLAB è il miglior ambiente a nostra disposizione per esplorare le reti che definiscono il funzionamento della riprogrammazione cellulare e comprendere come sfruttarla per contribuire a trasformare il trattamento del cancro e la medicina rigenerativa.”

La chemioterapia è una delle armi più potenti nella lotta contro la leucemia e altri tumori, ma può rivelarsi un'arma a doppio taglio. Nel processo di distruzione delle cellule cancerose, spesso annienta anche il sistema immunitario. Dopo aver somministrato questa terapia, spesso i medici devono “curare la cura”, eseguendo un trapianto di midollo osseo per aiutare i pazienti a guarire ricostruendo il sistema immunitario. Questi trapianti presentano delle sfide specifiche, perché non è facile trovare un donatore compatibile e, anche quando si trova un donatore compatibile, possono insorgere gravi complicazioni, come la malattia del trapianto contro l'ospite. 

Ora immagina un percorso diverso. E se potessimo trasformare alcune delle cellule della pelle del paziente nelle cellule del midollo di cui ha bisogno? Verrebbero eliminate immediatamente le due sfide legate alla ricerca di un donatore e al rigetto del tessuto donato. Questa è la promessa della riprogrammazione cellulare ed è al centro del lavoro del mio gruppo di ricerca presso l'Università del Michigan. Stiamo sviluppando metodi per convertire un tipo di cellula direttamente in un altro, utilizzando molecole chiamate fattori di trascrizione (proteine che contribuiscono ad attivare o disattivare i geni) per ripristinare l'identità di una cellula. 

Da una prospettiva ingegneristica, questo può essere formulato come un classico problema di controllo. Se lo stato attuale del sistema è una cellula della pelle e l'obiettivo è una cellula del midollo osseo, come possiamo guidare il sistema verso l'obiettivo? Lo modelliamo come ẋ = f(x, u), dove x è lo stato della cellula e u rappresenta la quantità e la tempistica dei fattori di trascrizione che applichiamo. Per individuare la combinazione corretta di fattori—e il momento più appropriato per applicarli—conduciamo esperimenti che generano grandi quantità di dati grezzi, tra cui dati di sequenziamento dell’RNA (RNA-Seq), dati sull’organizzazione tridimensionale del genoma e dati sul legame dei fattori di trascrizione. 

Il successo della nostra ricerca dipende dalla nostra capacità di elaborare e analizzare gli insiemi di dati biologici complessi che raccogliamo, spesso di grandi dimensioni, basati su matrici e ad alta dimensionalità. Dipende inoltre dalla nostra capacità di interpretare le reti che stanno alla base della regolazione genica e dell’organizzazione del genoma. Nel nostro lavoro, i geni e le regioni genomiche rappresentano i nodi della rete; le loro interazioni—contatti fisici, influenze regolatorie e co-espressione—ne costituiscono gli archi. Queste reti possono essere semplici grafici o ipergrafi più complessi ed entrambi sono naturalmente rappresentati come matrici. Queste matrici costituiscono le principali strutture dati fornite in ingresso ad algoritmi e modelli, molti dei quali si basano sulla decomposizione agli autovalori, sulla decomposizione ai valori singolari (SVD) e su altre operazioni di algebra lineare, tutte gestite in modo naturale ed efficiente in MATLAB®. Da anni ci affidiamo a MATLAB per sviluppare i workflow che costituiscono la base della nostra attività; più recentemente, abbiamo iniziato a utilizzare l’app Biopipeline Designer per definire ed eseguire parti di questi flussi come pipeline di bioinformatica.

Una breve storia della riprogrammazione cellulare e dell'emergere del controllo guidato dai dati

Sebbene l’idea di riprogrammare le cellule fosse presente da decenni, il campo della riprogrammazione cellulare fece un balzo significativo nel 2006, quando Shinya Yamanaka dimostrò che bastavano quattro fattori di trascrizione per riportare una cellula della pelle matura a uno stato pluripotente simile a quello delle cellule staminali. La sua scoperta delle cellule staminali pluripotenti indotte gli valse il Premio Nobel e, a mio avviso, cambiò completamente il paradigma della biologia. È interessante notare che, sebbene il lavoro di Yamanaka abbia catturato l’attenzione globale, non si trattava della prima dimostrazione che le cellule potessero cambiare radicalmente la propria identità e funzione. Circa vent’anni prima, Harold Weintraub—all’epoca presso il Fred Hutchinson Cancer Research Center, dove in seguito ho completato il mio postdottorato in Genome Cell Biology—aveva dimostrato che un tipo cellulare maturo poteva essere convertito direttamente in un altro, bypassando completamente lo stato pluripotente. Pubblicò il suo lavoro nel 1987, ma a quel tempo il settore non era ancora pronto ad assorbire le sue scoperte e la genialità del suo lavoro.

Sulla scia della visione di questi primi pionieri, il nostro laboratorio ha concentrato i propri sforzi sulla riprogrammazione diretta e, in particolare, su come renderla più affidabile e prevedibile. Tra i nostri principali contributi c'è un framework chiamato controllo guidato dai dati (Figura 1). Questo approccio ottimizza l'uso dei fattori di trascrizione nella riprogrammazione cellulare impiegando i principi della teoria del controllo matematico. 

Un diagramma che mostra come i fattori di trascrizione guidano la riprogrammazione cellulare utilizzando la teoria del controllo e le reti di espressione genica.

Figura 1. Panoramica del controllo guidato dai dati, comprensiva di un riepilogo delle variabili delle equazioni di controllo (A), della rappresentazione dei domini a associazione topologica (TAD) come nodi di una rete dinamica con archi determinati dai dati RNA-Seq temporali (B) e di un’illustrazione concettuale dell’identificazione di un insieme di fattori di trascrizione (TF) in grado di spingere lo stato cellulare da un bacino all’altro (C).

Nel controllo guidato dai dati, costruiamo modelli per l’evoluzione naturale delle popolazioni cellulari campionando l’espressione genica in più punti temporali lungo il ciclo cellulare. Per gestire la complessità, raggruppiamo l’espressione genica in base ai domini a associazione topologica (TAD) e modelliamo la dinamica dei loro livelli di espressione. (I TAD sono regioni del genoma che interagiscono fisicamente tra loro più frequentemente che con regioni esterne, formando unità strutturali tridimensionali discrete.) Per costruire questi modelli dinamici, integriamo i dati Hi-C—che mappano le interazioni fisiche tra diverse regioni del genoma—con i dati RNA-Seq, che monitorano come l’espressione genica varia nel tempo (Figura 2). I modelli, combinati con i dati sui siti di legame e sull’attività dei fattori di trascrizione, ci permettono di identificare in modo sistematico i candidati più promettenti per specifici compiti di riprogrammazione. 

Un'immagine che combina la struttura del genoma in 3D e i dati sull'espressione genica per supportare l'analisi della riprogrammazione cellulare.

Figura 2. La riprogrammazione cellulare richiede l’integrazione di diversi tipi di dati (Hi-C per la struttura tridimensionale del genoma e RNA-Seq per l’espressione genica) per comprendere sia l’organizzazione strutturale (TAD) sia gli aspetti funzionali del genoma.

Grazie al controllo guidato dai dati, siamo riusciti a identificare fattori già validati in esperimenti di riprogrammazione. Cosa ancora più importante, lo abbiamo utilizzato per individuare nuove combinazioni potenzialmente molto efficaci. Le capacità di gestione delle matrici e di visualizzazione in MATLAB si sono rivelate preziose in questo lavoro, permettendoci di elaborare in modo efficiente le complesse operazioni matematiche alla base dei nostri algoritmi di controllo e di interpretare i dati biologici ad alta dimensionalità risultanti.

Semplificazione delle analisi ipergrafiche e delle pipeline bioinformatiche

Sebbene il controllo guidato dai dati ci fornisca un modo per modellare la dinamica dell’espressione genica, spiegare tali dinamiche richiede spesso di catturare interazioni regolatorie che vanno oltre i semplici modelli a coppie. Molte interazioni biologiche coinvolgono non solo due, ma molti componenti cellulari contemporaneamente. Ad esempio, la regolazione genica richiede spesso il legame coordinato di diversi fattori di trascrizione e coattivatori alle regioni enhancer e promoter del genoma. I modelli di rete standard, che rappresentano le relazioni come connessioni tra coppie di elementi, non sono in grado di catturare adeguatamente queste interazioni multi-way. Per affrontare questa complessità, il nostro laboratorio ha sviluppato il Hypergraph Analysis Toolbox (HAT), una toolbox pubblicamente disponibile per l’analisi e la visualizzazione di strutture di ordine superiore in MATLAB. HAT consente ai ricercatori di costruire, visualizzare e analizzare ipergrafi—strutture matematiche in cui un singolo collegamento (iperarco) può connettere più nodi, rappresentando in modo preciso le interazioni multi-way nei sistemi biologici complessi. Questa capacità è particolarmente preziosa nella riprogrammazione cellulare, dove comprendere le dinamiche complesse delle reti di regolazione genica e delle interazioni cromatiniche può rivelare i punti di intervento ottimali per convertire un tipo cellulare in un altro. HAT ci aiuta a identificare moduli regolatori critici e punti di controllo che sarebbero invisibili ai modelli di rete basati su coppie, migliorando la nostra capacità di progettare strategie di riprogrammazione efficaci.

L'analisi degli ipergrafi viene spesso eseguita nel contesto di un processo o di una pipeline in più fasi. Le nostre pipeline sperimentali prevedono tipicamente la raccolta di dati grezzi dalle piattaforme di sequenziamento, l’allineamento ai genomi di riferimento, il filtraggio e altri passaggi a valle. L'app Biopipeline Designer ci consente di semplificare questi processi (Figura 3). Possiamo, ad esempio, costruire una pipeline che inizi dai dati di sequenziamento, li allinei, ne quantifichi l’espressione genica, applichi filtraggio e normalizzazione, e poi estragga caratteristiche biologicamente significative—una “firma”—che possa essere utilizzata per identificare o classificare le cellule, monitorare il progresso della riprogrammazione o guidare interventi. Possiamo costruire ed eseguire workflow bioinformatici end-to-end in modo interattivo, collegando sia strumenti bioinformatici consolidati sia codice sviluppato ad hoc in pipeline analitiche coerenti. Inoltre, possiamo creare blocchi personalizzati per rappresentare qualsiasi funzione MATLAB—including le nostre funzioni HAT—e integrarli con blocchi predefiniti per operazioni bioinformatiche comuni. 

Uno screenshot dell'app Biopipeline Designer in MATLAB che mostra un workflow bioinformatico modulare.

Figura 3. L'app Biopipeline Designer. 

Questo approccio è particolarmente efficace quando si elaborano i nostri dati RNA-Seq per l'analisi dell'espressione genica. Questi dati sono fondamentali per comprendere meglio lo stato delle cellule e le dinamiche di riprogrammazione. L’app Biopipeline Designer ci fa risparmiare tempo e garantisce la riproducibilità, poiché le pipeline completate possono essere condivise o adattate a diversi tipi di dati con modifiche minime. Per la ricerca sulla riprogrammazione cellulare, in cui sperimentazione e analisi iterative sono essenziali, ci affidiamo alla possibilità di modificare rapidamente i parametri e rieseguire le analisi per perfezionare i nostri modelli computazionali e le strategie di controllo.

MATLAB e biologia matematica in classe

Nel nostro laboratorio utilizziamo MATLAB praticamente in tutto ciò che facciamo. Questa filosofia si estende anche alla mia formazione universitaria, dove insegno i corsi Matematica delle reti biologiche e Matematica dei dati. Questi corsi trattano concetti fondamentali come la teoria spettrale dei grafi, la controllabilità delle reti, la decomposizione ai valori singolari (SVD), la modellazione probabilistica e le reti neurali—tutti applicati a set di dati biologici mediante MATLAB. 

Quando possibile, ospitiamo lezioni di Cleve Moler, cofondatore di MathWorks e creatore di MATLAB, il cui intervento “Come SVD ha salvato l'universo“ sia ispira i miei studenti sia dimostra il profondo impatto dell'algebra lineare nell'informatica scientifica.

Sviluppi attuali e futuri 

Sebbene il nostro approccio attuale si sia basato principalmente sui dati Hi-C per mappare le interazioni cromatiniche a coppie e identificare i TAD, il nostro laboratorio sta ora lavorando all’integrazione della tecnologia di sequenziamento a lettura lunga di Oxford Nanopore Technologies per approfondire la comprensione dell’architettura della cromatina (il modo in cui il DNA è organizzato con le proteine nel nucleo cellulare). A differenza del tradizionale sequenziamento a lettura corta, il metodo Pore-C dell’azienda cattura interazioni cromatiniche multi-way e modificazioni epigenetiche, offrendo una visione più completa della struttura tridimensionale del genoma (Figura 4). Questo progresso richiederà adattamenti nei nostri workflow per l’elaborazione dei dati, e prevediamo di utilizzare Biopipeline Designer per gestire e analizzare i set di dati più complessi coinvolti. 

Confronto visivo delle mappe di contatto della cromatina ottenute con Hi-C e Pore-C. Il pannello Hi-C mostra una heatmap delle interazioni a coppie e i confini dei TAD sul Cromosoma 4. Il pannello Pore-C illustra un workflow di sequenziamento e contatti multi-way basati su ipergrafi in una regione genomica.

Figura 4. Confronto delle mappe di contatto dell'intero genoma generate utilizzando le tecnologie Hi-C e Pore-C. 

Stiamo inoltre estendendo il nostro framework di controllo guidato dai dati per incorporare rappresentazioni tramite ipergrafi, permettendoci di modellare in modo più efficace le interazioni regolatorie geniche di ordine superiore. Inoltre, stiamo pianificando di andare oltre la riprogrammazione a livello di popolazione e di includere la riprogrammazione a livello di singola cellula, con l’obiettivo di migliorare i tassi di successo della riprogrammazione. Stiamo inoltre guardando verso la fabbricazione dei tessuti, esplorando il potenziale di assemblare tessuti funzionali a partire da cellule riprogrammate. A supporto di queste iniziative, la nostra visione a lungo termine prevede lo sviluppo di sistemi di laboratorio completamente automatizzati, in cui i digital twin dei sistemi robotici necessari saranno modellati e simulati in Simulink®. ​

Quando i ricercatori parlano di prelevare una cellula della pelle, riprogrammarla e reintrodurla in un paziente, può sembrare fantascienza. Come osservò famosamente lo scrittore di fantascienza Arthur C. Clarke: “Qualsiasi tecnologia sufficientemente avanzata è indistinguibile dalla magia.” In questo spirito, credo che gli strumenti MATLAB siano fondamentali per consentirci di trasformare questa “magia” in realtà.

Informazioni sull'autore'

Il Dr. Rajapakse è professore di medicina computazionale e bioinformatica presso la Michigan Medicine, University of Michigan, e professore di matematica presso il College of Literature, Science, and the Arts dell’University of Michigan. Ha completato il suo postdottorato in Genome Cell Biology presso il Fred Hutchinson Cancer Research Center nel 2012. È anche membro dello Smale Institute e Chief Scientific Officer e cofondatore di iReprogram, Inc. I suoi interessi di ricerca includono la riprogrammazione cellulare, la biologia digitale, l’apprendimento e il controllo guidati dai dati di strutture di ordine superiore, e la matematica della sincronizzazione.

Pubblicato nel 2025

I prodotti utilizzati

Ulteriori informazioni

Visualizza articoli per funzionalità correlate

Visualizza articoli per settori correlati