Bioinformatics Toolbox

Leggere, analizzare e visualizzare dati genomici e proteomici

 

Bioinformatics Toolbox™ contiene algoritmi e app per il sequenziamento di nuova generazione (NGS, Next Generation Sequencing), l’analisi di microarray, la spettrometria di massa e l’ontologia genica. Grazie alle funzioni del toolbox, è possibile leggere dati genomici e proteomici da formati file standard come SAM, FASTA, CEL e CDF, oltre che da database online come il Gene Expression Omnibus dell’NCBI e GenBank®. È possibile esplorare e visualizzare questi dati con browser di sequenziamento, mappe di calore spaziali e clustergram. Il toolbox dispone anche di tecniche statistiche per il rilevamento di picchi, l’attribuzione di valori per i dati mancanti e la selezione delle feature.

È possibile combinare le funzioni del toolbox per supportare flussi di lavoro di bioinformatica più diffusi. È possibile usare dati ChIP-Seq per individuare i fattori di trascrizione; analizzare i dati RNA-Seq per individuare i geni differenzialmente espressi; trovare le varianti del numero di copie e gli SNP in dati di microarray; classificare i profili delle proteine usando dati di spettrometria di massa.

Maggiori informazioni sulla biologia computazionale.

Per iniziare:

Analisi per il sequenziamento di nuova generazione

Bioinformatics Toolbox offre algoritmi e tecniche di visualizzazione per svolgere analisi nell’ambito del sequenziamento di nuova generazione (NGS). Il toolbox consente di analizzare interi genomi eseguendo, al contempo, dei calcoli a un livello di risoluzione di coppia di basi. È possibile usare il browser NGS per visualizzare e studiare gli allineamenti delle reads corte usando reads corte di tipo single-end o paired-end. È anche possibile costruire routine di analisi personalizzate, come illustrato negli esempi che seguono.

Visualizzazione e studio dell’allineamento delle reads corte

Usando il browser NGS, è possibile verificare e studiare l’allineamento delle sequenze di reads corte a supporto delle analisi che misurano la variazione genetica e l’espressione dei geni. Il browser NGS consente di:

  • Visualizzare dati di reads corte allineati a una sequenza di riferimento nucleotidica
  • Confrontare diversi set di dati allineati rispetto a una sequenza di riferimento comune
  • Visualizzare la copertura delle diverse basi e regioni della sequenza di riferimento
  • Studiare la qualità e altri dettagli delle reads allineate
  • Individuare discrepanze dovute a errori di chiamata delle basi o a polimorfismi
  • Visualizzare inserimenti ed eliminazioni
  • Recuperare annotazioni di feature relative a una regione specifica della sequenza di riferimento

Browser NGS, in cui vengono illustrati dei polimorfismi a singolo nucleotide (SNP) in grassetto. È possibile visualizzare diversi tracciati di dati, esaminare i picchi, individuare gli inserimenti e le eliminazioni e studiare la qualità delle reads.

Conservazione e gestione dei dati delle sequenze di reads corte

I set di dati utilizzati per l’analisi del sequenziamento di nuova generazione spesso sono troppi grandi per la memoria fisica. Bioinformatics Toolbox mette a disposizione degli appositi contenitori di dati che consentono di analizzare genomi interi.

L’oggetto BioIndexedFile consente di accedere al contenuto dei file di testo che contengono voci di dimensioni non uniformi come le sequenze, le annotazioni e i riferimenti incrociati al set di dati. Quest oggetti possono essere generati a partire da tabelle, flat file o formati specifici per determinate applicazioni come SAM, FASTA e FASTQ.

Nella classe BioMap vengono salvate informazioni dalle sequenze di reads corte, compresi gli header delle sequenze, le sequenze di reads, i punteggi di qualità e i dati relativi all’allineamento e alla mappatura rispetto ad un’unica sequenza di riferimento. È possibile utilizzare proprietà di oggetti e metodi per esplorare, accedere, filtrare e manipolare i dati contenuti in un oggetto BioMap .

Analisi e visualizzazione dei dati di microarray

Utilizza applicazioni e funzioni per acquisire, visualizzare, analizzare ed elaborare immagini in molti tipi di dati.

Normalizzazione di microarray

È possibile usare diversi metodi per normalizzare i dati di microarray, compresa la normalizzazione lowess, della media globale, della deviazione mediana assoluta (MAD) e la normalizzazione quantile. Questi metodi possono essere applicati all’intero chip del microarray o a regioni o blocchi specifici. Le funzioni di filtraggio e attribuzione consentono di pulire i dati grezzi prima di eseguire le analisi e le routine di visualizzazione.

Analisi e visualizzazione dei dati

Bioinformatics Toolbox consente di eseguire regolazioni del background e di calcolare i valori di espressione dei geni (set di sonde) a partire dai dati a livello di sonda di microarray Affymetrix® usando le procedure Robust Multi-Array Average (RMA) e GC Robust Multi-Array Average (GCRMA). È possibile applicare una segmentazione binaria circolare ai dati di array-CGH e stimare il tasso di falsa scoperta di più test di ipotesi dei dati di espressione dei geni a partire da un esperimento su un microarray. In più, è possibile eseguire la normalizzazione a rango invariante sulle intensità delle sonde per più file CEL Affymetrix o sui valori di espressione dei geni a partire da due condizioni sperimentali diverse.

Le routine specialistiche per la visualizzazione dei dati dei microarray comprendono i volcano plot, i box plot, i grafici log-log, i grafici I-R e le mappe di calore spaziali del microarray. È anche possibile visualizzare degli ideogrammi con pattern di G-banding.

Usando le routine di Statistics and Machine Learning Toolbox, è possibile classificare i risultati, eseguire il clustering gerarchico e K-means, oltre a rappresentare i dati del microarray in visualizzazioni statistiche, come i clustergram 2D con ordinamento ottimale delle foglie, mappe di calore, i grafici delle componenti principali e gli alberi di classificazione.

Volcano plot dei dati di un microarray in cui si visualizza la significatività rispetto al tasso di espressione dei geni.

Analisi dei dati di spettrometria di massa

Bioinformatics Toolbox offre un set di funzioni per l’analisi dei dati di spettrometria di massa. Queste funzioni consentono di pre-elaborare, classificare e identificare i marcatori da dati SELDI, MALDI, LC/MS e GC/MS. Le funzioni di pre-elaborazione comprendono la correzione, la linearizzazione, la calibrazione e il ricampionamento dei dati di base. È anche possibile allineare i dati degli spettri grezzi usando l’asse M/Z e procedere all’allineamento del tempo di ritenzione su dati LC/MS e GC/MS. È possibile eseguire il plottaggio di più spettri contemporaneamente.

Gli spettri possono essere linearizzati, allineati e normalizzati. Poi, grazie agli strumenti di classificazione e apprendimento statistico, si possono creare dei classificatori e individuare dei potenziali biomarcatori.

Analisi metabolomica e proteomica differenziale senza etichette con Bioinformatics Toolbox.

Teoria dei grafi, apprendimento statistico e ontologia genica

Teoria dei grafi e visualizzazione

Bioinformatics Toolbox consente di applicare la teoria dei grafi base a matrici sparse. È possibile creare, visualizzare e manipolare grafi come le mappe di interazione, i grafici gerarchici e i pathway. Lo strumento consente di determinare e visualizzare i percorsi più brevi nei grafi, verificare i cicli nei digrafi e trovare isomorfismi tra due grafi.

Apprendimento statistico e visualizzazione

Bioinformatics Toolbox offre funzioni che operano sugli algoritmi di classificazione e apprendimento statistico di Statistics and Machine Learning Toolbox, tra cui:

  • Classificatori support vector machine (SVM) e K-nearest neighbor
  • Funzioni per organizzare esperimenti di cross-validation e misurare le prestazioni dei vari metodi di classificazione
  • Strumenti interattivi per la selezione delle feature, la mappatura e la visualizzazione di grafici gerarchici e pathway

Apprendimento statistico e visualizzazione.

Ontologia genica

Bioinformatics Toolbox permette di accedere al database del progetto Gene Ontology da MATLAB®, di analizzare i file annotati di ontologia genica e di ottenere dei sottogruppi dell’ontologia come gli antenati, i discendenti o i parenti.

Analisi delle sequenze

Bioinformatics Toolbox offre strumenti di analisi e visualizzazione delle sequenze per i dati di sequenze genomiche e proteomiche. È possibile svolgere diverse tipologie di analisi, come gli allineamenti di sequenze multiple e la costruzione, visualizzazione e manipolazione interattiva di alberi filogenetici.

Allineamento di sequenze

Il toolbox mette a disposizione funzioni, oggetti e metodi per l’analisi delle sequenze, compreso l’allineamento a coppie, multiplo e di profili di sequenze. Sono compresi:

  • Implementazioni MATLAB di algoritmi standard per allineamenti di sequenze locali e globali, come l’algoritmo di Needleman-Wunsch, Smith-Waterman e quello del modello nascosto di Markov
  • Allineamento di sequenze multiple progressivo
  • Rappresentazioni grafiche delle matrici dei risultati degli allineamenti
  • Matrici di punteggio standard, come le famiglie di matrici PAM e BLOSUM
  • Calcolo delle sequenze consenso e visualizzazione del logo della sequenza

Esplora la galleria (3 immagini)

Statistiche e utility relative alle sequenze

Il toolbox consente di manipolare e analizzare le proprie sequenze per comprendere più a fondo i propri dati. È possibile:

  • Convertire sequenze di DNA o RNA in sequenze di amminoacidi usando il codice genetico
  • Svolgere analisi statistiche sulle sequenze e cercare pattern specifici all’interno di una sequenza
  • Applicare enzimi di restrizione e proteasi per eseguire la digestione in-silico delle sequenze o creare sequenze casuali per i casi di test
  • Prevedere la struttura secondaria con il minimo dell’energia libera delle sequenze di RNA

Visualizzazione delle sequenze

Il toolbox consente di visualizzare sequenze e allineamenti. È possibile ottenere mappe lineari o circolari delle sequenze annotate con feature GenBank. È possibile visualizzare i diagrammi delle strutture secondarie di una sequenza di RNA. Degli strumenti di visualizzazione interattivi consentono di esplorare e modificare gli allineamenti di sequenze multiple e a coppie.

Analisi di alberi filogenetici

Il toolbox consente di creare e modificare alberi filogenetici. È possibile calcolare le distanze tra le coppie, tra sequenze di nucleotidi o amminoacidi allineate o meno, usando un’ampia gamma di metriche di somiglianza, come Jukes-Cantor, p-distance, alignment-score o un altro metodo definito dall’utente. Gli alberi filogenetici vengono costruiti usando collegamenti gerarchici con tecniche diverse, come neighbor joining, legame singolo e completo e UPGMA (Unweighted Pair Group Method Average).

Il toolbox supporta il calcolo del peso e lo spostamento delle radici degli alberi, il calcolo dei subtree e della forma canonica degli alberi. Lo strumento di visualizzazione degli alberi filogenetici consente di potare, riordinare e rinominare i rami; esplorare le distanze; leggere o scrivere file in formato di Newick. È anche possibile usare gli strumenti di annotazione disponibili in MATLAB per creare alberi da presentazione.

Analisi delle caratteristiche delle proteine

Il toolbox offre tecniche per analizzare le sequenze di proteine, comprese delle routine per il calcolo delle proprietà di una sequenza di peptidi come la composizione dell’atomo, il punto isoelettrico e il peso molecolare. È possibile determinare la composizione degli amminoacidi delle sequenze di proteine, scindere una proteina con un enzima e creare grafici del backbone e grafici di Ramachandran di dati PDB. È possibile usare il Sequence Tool per vedere le proprietà di una sequenza di amminoacidi o il Molecule Viewer per visualizzare e manipolare strutture molecolari 3D.

Importazione dei dati e distribuzione delle applicazioni

Formati dei file e accesso ai database

È possibile accedere a formati file standard per i dati biologici, a database online e a siti web. Bioinformatics Toolbox consente di:

  • Leggere i dati delle sequenze da formati file standard come FASTA, PDB e SCF
  • Leggere i dati dei microarray d formati file come i file Affymetrix DAT, EXP, CEL, CHP e CDF; dati di risultati ImaGene® ; file Agilent® Feature Extraction Software; file GenePix® GPR e GAL
  • Leggere i dati da database online come GenBank, EMBL, NCBI BLAST e PDB
  • Importare dati direttamente dal sito web del Gene Expression Omnibus dell’NCBI con un unico comando
  • Leggere informazioni sulle bande citogenetiche dagli ideogrammi dell’NCBI o da appositi file di testo dell’UCSC
  • Leggere dai di spettrometria di massa da file MZXML e JCAMP-DX

Condivisione di algoritmi e distribuzione di applicazioni

MATLAB offre strumenti per trasformare un programma di analisi dei dati in un’applicazione software personalizzata. Sono compresi strumenti di sviluppo per la creazione di interfacce utente, un ambiente di sviluppo integrato visivo e un profiler. I prodotti per la distribuzione delle applicazioni MATLAB consentono di integrare i propri algoritmi MATLAB con codice C, C++ e applicazioni Java esistenti, di distribuire gli algoritmi sviluppati e le interfacce personalizzate come applicazioni standalone, di convertire gli algoritmi MATLAB in componenti Microsoft® .NET o COM a cui si può accedere da qualsiasi applicazione su base COM e di creare add-in di Microsoft Excel® .

È possibile integrare MATLAB con gli strumenti di bioinformatica più usati come BioPerl, i servizi web basati su SOAP e i plug-in COM.

Condivisione di algoritmi e distribuzione di applicazioni.

Funzionalità recenti

Genomics Viewer

Visualizzazione di dati NGS grazie a una versione embedded dell’Integrative Genomics Viewer (IGV)

Cufflinks

Esecuzione di analisi di espressioni statistiche e differenziali su dati di sequenze di RNA

Consulta le note di rilascio per ulteriori informazioni su queste caratteristiche e sulle funzioni corrispondenti.