Bioinformatics Toolbox
Leggere, analizzare e visualizzare dati genomici e proteomici
Domande? Contatta l’ufficio addetto alle vendite.
Domande? Contatta l’ufficio addetto alle vendite.
Bioinformatics Toolbox™ contiene algoritmi e app per il sequenziamento di nuova generazione (NGS, Next Generation Sequencing), l’analisi di microarray, la spettrometria di massa e l’ontologia genica. Grazie alle funzioni del toolbox, è possibile leggere dati genomici e proteomici da formati file standard come SAM, FASTA, CEL e CDF, oltre che da database online come il Gene Expression Omnibus dell’NCBI e GenBank®. È possibile esplorare e visualizzare questi dati con browser di sequenziamento, mappe di calore spaziali e clustergram. Il toolbox dispone anche di tecniche statistiche per il rilevamento di picchi, l’attribuzione di valori per i dati mancanti e la selezione delle feature.
È possibile combinare le funzioni del toolbox per supportare flussi di lavoro di bioinformatica più diffusi. È possibile usare dati ChIP-Seq per individuare i fattori di trascrizione; analizzare i dati RNA-Seq per individuare i geni differenzialmente espressi; trovare le varianti del numero di copie e gli SNP in dati di microarray; classificare i profili delle proteine usando dati di spettrometria di massa.
Maggiori informazioni sulla biologia computazionale.
Bioinformatics Toolbox offre algoritmi e tecniche di visualizzazione per svolgere analisi nell’ambito del sequenziamento di nuova generazione (NGS). Il toolbox consente di analizzare interi genomi eseguendo, al contempo, dei calcoli a un livello di risoluzione di coppia di basi. È possibile usare il browser NGS per visualizzare e studiare gli allineamenti delle reads corte usando reads corte di tipo single-end o paired-end. È anche possibile costruire routine di analisi personalizzate, come illustrato negli esempi che seguono.
I set di dati utilizzati per l’analisi del sequenziamento di nuova generazione spesso sono troppi grandi per la memoria fisica. Bioinformatics Toolbox mette a disposizione degli appositi contenitori di dati che consentono di analizzare genomi interi.
L’oggetto BioIndexedFile
consente di accedere al contenuto dei file di testo che contengono voci di dimensioni non uniformi come le sequenze, le annotazioni e i riferimenti incrociati al set di dati. Quest oggetti possono essere generati a partire da tabelle, flat file o formati specifici per determinate applicazioni come SAM, FASTA e FASTQ.
Nella classe BioMap
vengono salvate informazioni dalle sequenze di reads corte, compresi gli header delle sequenze, le sequenze di reads, i punteggi di qualità e i dati relativi all’allineamento e alla mappatura rispetto ad un’unica sequenza di riferimento. È possibile utilizzare proprietà di oggetti e metodi per esplorare, accedere, filtrare e manipolare i dati contenuti in un oggetto BioMap .
È possibile usare diversi metodi per normalizzare i dati di microarray, compresa la normalizzazione lowess, della media globale, della deviazione mediana assoluta (MAD) e la normalizzazione quantile. Questi metodi possono essere applicati all’intero chip del microarray o a regioni o blocchi specifici. Le funzioni di filtraggio e attribuzione consentono di pulire i dati grezzi prima di eseguire le analisi e le routine di visualizzazione.
Bioinformatics Toolbox consente di eseguire regolazioni del background e di calcolare i valori di espressione dei geni (set di sonde) a partire dai dati a livello di sonda di microarray Affymetrix® usando le procedure Robust Multi-Array Average (RMA) e GC Robust Multi-Array Average (GCRMA). È possibile applicare una segmentazione binaria circolare ai dati di array-CGH e stimare il tasso di falsa scoperta di più test di ipotesi dei dati di espressione dei geni a partire da un esperimento su un microarray. In più, è possibile eseguire la normalizzazione a rango invariante sulle intensità delle sonde per più file CEL Affymetrix o sui valori di espressione dei geni a partire da due condizioni sperimentali diverse.
Le routine specialistiche per la visualizzazione dei dati dei microarray comprendono i volcano plot, i box plot, i grafici log-log, i grafici I-R e le mappe di calore spaziali del microarray. È anche possibile visualizzare degli ideogrammi con pattern di G-banding.
Usando le routine di Statistics and Machine Learning Toolbox™, è possibile classificare i risultati, eseguire il clustering gerarchico e K-means, oltre a rappresentare i dati del microarray in visualizzazioni statistiche, come i clustergram 2D con ordinamento ottimale delle foglie, mappe di calore, i grafici delle componenti principali e gli alberi di classificazione.
Bioinformatics Toolbox offre un set di funzioni per l’analisi dei dati di spettrometria di massa. Queste funzioni consentono di pre-elaborare, classificare e identificare i marcatori da dati SELDI, MALDI, LC/MS e GC/MS. Le funzioni di pre-elaborazione comprendono la correzione, la linearizzazione, la calibrazione e il ricampionamento dei dati di base. È anche possibile allineare i dati degli spettri grezzi usando l’asse M/Z e procedere all’allineamento del tempo di ritenzione su dati LC/MS e GC/MS. È possibile eseguire il plottaggio di più spettri contemporaneamente.
Gli spettri possono essere linearizzati, allineati e normalizzati. Poi, grazie agli strumenti di classificazione e apprendimento statistico, si possono creare dei classificatori e individuare dei potenziali biomarcatori.
Bioinformatics Toolbox consente di applicare la teoria dei grafi base a matrici sparse. È possibile creare, visualizzare e manipolare grafi come le mappe di interazione, i grafici gerarchici e i pathway. Lo strumento consente di determinare e visualizzare i percorsi più brevi nei grafi, verificare i cicli nei digrafi e trovare isomorfismi tra due grafi.
Bioinformatics Toolbox offre funzioni che operano sugli algoritmi di classificazione e apprendimento statistico di Statistics and Machine Learning Toolbox, tra cui:
Bioinformatics Toolbox permette di accedere al database del progetto Gene Ontology da MATLAB®, di analizzare i file annotati di ontologia genica e di ottenere dei sottogruppi dell’ontologia come gli antenati, i discendenti o i parenti.
Bioinformatics Toolbox offre strumenti di analisi e visualizzazione delle sequenze per i dati di sequenze genomiche e proteomiche. È possibile svolgere diverse tipologie di analisi, come gli allineamenti di sequenze multiple e la costruzione, visualizzazione e manipolazione interattiva di alberi filogenetici.
Il toolbox mette a disposizione funzioni, oggetti e metodi per l’analisi delle sequenze, compreso l’allineamento a coppie, multiplo e di profili di sequenze. Sono compresi:
Il toolbox consente di manipolare e analizzare le proprie sequenze per comprendere più a fondo i propri dati. È possibile:
Il toolbox consente di visualizzare sequenze e allineamenti. È possibile ottenere mappe lineari o circolari delle sequenze annotate con feature GenBank. È possibile visualizzare i diagrammi delle strutture secondarie di una sequenza di RNA. Degli strumenti di visualizzazione interattivi consentono di esplorare e modificare gli allineamenti di sequenze multiple e a coppie.
Il toolbox consente di creare e modificare alberi filogenetici. È possibile calcolare le distanze tra le coppie, tra sequenze di nucleotidi o amminoacidi allineate o meno, usando un’ampia gamma di metriche di somiglianza, come Jukes-Cantor, p-distance, alignment-score o un altro metodo definito dall’utente. Gli alberi filogenetici vengono costruiti usando collegamenti gerarchici con tecniche diverse, come neighbor joining, legame singolo e completo e UPGMA (Unweighted Pair Group Method Average).
Il toolbox supporta il calcolo del peso e lo spostamento delle radici degli alberi, il calcolo dei subtree e della forma canonica degli alberi. Lo strumento di visualizzazione degli alberi filogenetici consente di potare, riordinare e rinominare i rami; esplorare le distanze; leggere o scrivere file in formato di Newick. È anche possibile usare gli strumenti di annotazione disponibili in MATLAB per creare alberi da presentazione.
Il toolbox offre tecniche per analizzare le sequenze di proteine, comprese delle routine per il calcolo delle proprietà di una sequenza di peptidi come la composizione dell’atomo, il punto isoelettrico e il peso molecolare. È possibile determinare la composizione degli amminoacidi delle sequenze di proteine, scindere una proteina con un enzima e creare grafici del backbone e grafici di Ramachandran di dati PDB. È possibile usare il Sequence Tool per vedere le proprietà di una sequenza di amminoacidi o il Molecule Viewer per visualizzare e manipolare strutture molecolari 3D.
È possibile accedere a formati file standard per i dati biologici, a database online e a siti web. Bioinformatics Toolbox consente di:
MATLAB offre strumenti per trasformare un programma di analisi dei dati in un’applicazione software personalizzata. Sono compresi strumenti di sviluppo per la creazione di interfacce utente, un ambiente di sviluppo integrato visivo e un profiler. I prodotti per la distribuzione delle applicazioni MATLAB consentono di integrare i propri algoritmi MATLAB con codice C, C++ e applicazioni Java™esistenti, di distribuire gli algoritmi sviluppati e le interfacce personalizzate come applicazioni standalone, di convertire gli algoritmi MATLAB in componenti Microsoft® .NET o COM a cui si può accedere da qualsiasi applicazione su base COM e di creare add-in di Microsoft Excel® .
È possibile integrare MATLAB con gli strumenti di bioinformatica più usati come BioPerl, i servizi web basati su SOAP e i plug-in COM.