Funzionalità chiave

Learn how machine learning tools in MATLAB® can be used to solve regression, clustering, and classification problems.

Analisi esplorativa dei dati

Statistics and Machine Learning Toolbox fornisce diverse modalità di esplorazione dei dati: rappresentazione statistica con grafici interattivi, algoritmi per analisi cluster e statistiche descrittive per set di dati di grandi dimensioni.


Rappresentazione statistica con grafici interattivi

Statistics and Machine Learning Toolbox contiene grafici per esplorare i dati in modo visivo. Il toolbox arricchisce i tipi di grafici MATLAB® con grafici di probabilità, box plot, istogrammi, istogrammi a dispersione, istogrammi 3D, grafici di controllo e grafici quantile-quantile. Il toolbox contiene anche grafici speciali per analisi multivariate, tra cui dendrogrammi, biplot, grafici a coordinate parallele e grafici di Andrews.

Visualizza dati multivariati utilizzando diversi grafici statistici.

Statistica descrittiva

La statistica descrittiva potenzialmente consente di comprendere e descrivere grandi quantità di dati in modo rapido attraverso alcuni numeri altamente significativi. Statistics and Machine Learning Toolbox include funzioni per calcolare:

These functions help you summarize values in a data sample using a few highly relevant numbers.

Box plot dei dati sull’accelerazione di un’auto raggruppati per paese di origine.

Tecniche di ricampionamento

In alcuni casi, non è possibile dedurre statistiche di sintesi usando metodi parametrici. Per gestire questi casi, Statistics and Machine Learning Toolbox offre tecniche di ricampionamento, tra cui:

  • Campionamento random da un set di dati con o senza sostituzione;
  • Una funzione bootstrap non parametrica per analizzare la distribuzione delle statistiche usando il ricampionamento;
  • Una funzione jackkinfe per analizzare la distribuzione delle statistiche usando il ricampionamento jackknife;
  • Una funzione bootci per stimare gli intervalli di confidenza usando un bootstrap non parametrico.
Ricampionamento del punteggio LSAT e dei GPA delle facoltà di giurisprudenza per investigare la correlazione.

Riduzione di dimensionalità

Statistics and Machine Learning Toolbox fornisce algoritmi e funzioni per la riduzione della dimensionalità dei set di dati. La riduzione di dimensionalità è una fase importante nell’analisi dei dati, poiché può contribuire a migliorare la precisione, la performance e l’interpretabilità del modello ed evitare l’overfitting. È possibile eseguire trasformazione e selezione delle feature, nonché l'esplorazione delle relazioni tra le variabili tramite tecniche di visualizzazione, quali matrici di scatter plot e scaling multidimensionale classico.


Trasformazione delle feature

La trasformazione delle feature (a volte chiamata "estrazione delle feature") è una riduzione di dimensionalità che trasforma feature esistenti in nuove feature (variabili predittori) in cui vengono eliminate le feature meno descrittive. Tra i metodi di trasformazione delle feature disponibili nel Statistics and Machine Learning Toolbox figurano:

Esegui l’analisi delle componenti principali pesate e interpretazione dei risultati.

Selezione delle feature

La selezione delle feature è una tecnica di riduzione di dimensionalità di feature misurate (variabili predittori) che fornisce il migliore potere predittivo nella modellazione dei dati. È utile quando si lavora con dati di ampie dimensioni oppure quando la raccolta di dati per tutte le feature è proibitiva dal punto di vista dei costi. Tra i metodi di selezione delle feature disponibili in Statistics and Machine Learning Toolbox figurano:

  • Regressione stepwise: Aggiungere o rimuovere sequenzialmente le feature finché non si ha alcun miglioramento nell'accuratezza della previsione. Può essere usata con gli algoritmi di regressione lineare o di regressione lineare generalizzata.
  • Selezione sequenziale delle feature: È simile alla regressione graduale e può essere usata con qualsiasi algoritmo di apprendimento con supervisione e misura delle prestazioni personalizzata.
  • Alberi decisionali con boosting e bagging: Metodi di ensemble che calcolano l’importanza delle variabili dalle stime out of bag
  • Regolarizzazione (lasso e elastic-net): Utilizza gli stimatori shrinkage per rimuovere le feature ridondanti riducendo i loro pesi (coefficienti) a zero
Seleziona le feature importanti per la rilevazione dei tumori.

Visualizzazione multivariata

Statistics and Machine Learning Toolbox contiene grafici per esplorare i dati multivariati in modo visivo, tra cui:

  • matrici di scatter plot;
  • dendogrammi;
  • biplot;
  • grafici a coordinate parallele;
  • grafici di Andrews;
  • grafici di Glyph.
La matrice di scatter plot a gruppi mostra come l’anno del modello influenza le diverse variabili delle auto.

Machine Learning

Gli algoritmi di machine learning usano metodi computazionali per “apprendere" le informazioni direttamente dai dati senza presupporre un'equazione predeterminata come modello. Statistics and Machine Learning Toolbox fornisce metodi per l’esecuzione di machine learning con e senza supervisione.

In questo webinar, imparerai a utilizzare gli strumenti di machine learning per rilevare pattern e costruire modelli predittivi dai set di dati.

Classificazione

Gli algoritmi di classificazione consentono di modellare una variabile di risposta categorica in funzione di uno o più predittori. Statistics and Machine Learning Toolbox offre un’app e funzioni che coprono una vasta gamma di algoritmi di classificazione parametrici e non parametrici, quali:

Scopri come trovare i parametri ottimali di un classificatore SVM con cross-validation mediante l’ottimizzazione baynesiana.

App Classification Learner

È possibile utilizzare la App Classification Learner per eseguire attività comuni, tra cui esplorare interattivamente i dati, selezionare funzioni, specificare schemi di cross-validation, addestrare modelli e valutare risultati. La App Classification Learner consente l’addestramento di modelli per la classificazione dei dati tramite apprendimento automatico con supervisione. Si può utilizzare per eseguire attività comuni, quali:

  • Importare dati e specificare schemi di cross-validation;
  • Esplorare dati e selezionare feature;
  • Addestrare modelli utilizzando algoritmi di classificazione;
  • Confrontare e valutare modelli;
  • Condividere modelli addestrati per l’uso in applicazioni quali computer vision e signal processing
Learn how to detect patterns in gene expression profiles by examining gene expression data.
The Classification Learner app lets you train models to classify data using supervised machine learning.

Cluster Analysis

Statistics and Machine Learning Toolbox fornisce algoritmi per l’esecuzione di cluster analysis per rilevare i pattern nei set di dati raggruppando i dati in base alle misure di similarità. Tra gli algoritmi disponibili figurano k-means, k-medoids, clustering gerarchico, misture gaussiane e modelli di tipo hidden Markov. Quando il numero di cluster è sconosciuto, è possibile utilizzare tecniche di valutazione dei cluster per stabilire il numero di cluster presenti nei dati, in base a una metrica specifica.

Come rilevare pattern nei profili di espressione genica esaminando i dati dell'espressione genica.

Regressione non parametrica

Statistics and Machine Learning Toolbox supporta anche tecniche di regressione non parametriche per la generazione di fitting accurati senza specificare un modello che descriva la relazione tra il predittore e la risposta. Le tecniche di regressione non parametriche possono rientrare nella più ampia categoria dell’apprendimento automatico per regressione e includono alberi decisionali, alberi di regressione con boosting e bagging e Support vector machine regression.

Prevedi il rischio assicurativo mediante l’addestramento di un ensemble di alberi di regressione con Treebagger.

Regressione e ANOVA


Regressione

Con le tecniche di regressione, è possibile modellare una variabile di risposta continua in funzione di uno o più predittori. Statistics and Machine Learning Toolbox offre una varietà di algoritmi di regressione, tra cui regressione lineare, modelli lineari generalizzati, regressione non lineare e modelli a effetti misti.


Regressione lineare

La regressione lineare è una tecnica di modellazione statistica usata per descrivere una variabile di risposta continua in funzione di una o più variabili esplicative (predittori). Può contribuire a capire e a prevedere il comportamento di sistemi complessi, nonché ad analizzare dati sperimentali, finanziari e biologici. Statistics and Machine Learning Toolbox offre vari modelli di regressione lineare e vari metodi di fitting, tra cui:

  • semplice: modello con un solo predittore;
  • multiplo: modello con predittori multipli;
  • multivariato: modello con variabili di risposta multiple;
  • robusto: modello in presenza di outlier;
  • stepwise: modello con selezione automatica delle variabili;
  • regolarizzato: Modello che può gestire predittori ridondanti e prevenire l'overfitting usando algoritmi di ridge, lasso e elastic-net
Apprendere come generare precisi fitting in presenza di dati correlati.

Regressione non lineare

La regressione non lineare è una tecnica di modellazione statistica che aiuta a descrivere le relazioni non lineari in dati sperimentali. In genere si presuppone che i modelli di regressione non lineare siano parametrici, dove il modello è rappresentato da un'equazione non lineare. Statistics and Machine Learning Toolbox offre anche metodi di fitting robusto non lineare per gestire gli outlier nei dati.

Usa grafici diagnostici per esaminare un modello non lineare sottoposto a fitting utilizzando grafici di diagnostica, di residui e slide plot.

Modelli lineari generalizzati

I modelli lineari generalizzati sono un tipo speciale di modelli non lineari che utilizzano metodi lineari. Essi consentono alle variabili di risposta di avere distribuzioni non normali e una funzione link che descrive come il valore previsto della risposta è correlato ai predittori lineari. Statistics and Machine Learning Toolbox supporta il fitting di modelli lineari generalizzati con le seguenti distribuzioni di risposta:

  • normale;
  • binomiale (regressione logistica o probit);
  • Poisson;
  • Gamma;
  • Gaussiana inversa.
Fitting e valutazione di modelli lineari generalizzati utilizzando glmfit e glmval.

Modelli a effetti misti

I modelli a effetti misti lineari e non lineari sono generalizzazioni di modelli lineari e non lineari per dati raccolti e sintetizzati in gruppi. Tali modelli descrivono la relazione fra una variabile di risposta e variabili indipendenti, con coefficienti che possono variare in relazione a una o più variabili di raggruppamento. Statistics and Machine Learning Toolbox supporta il fitting di modelli multilivello o gerarchici, lineari, non lineari e modelli lineari generalizzati ad effetti misti con effetti casuali nidificati e/o incrociati, che si possono usare per eseguire svariati studi fra cui:

Esegui il fitting e valuta modelli a effetti misti utilizzando nlmefit e nlmefitsa.

Valutazione dei modelli

Statistics and Machine Learning Toolbox consente di valutare i modelli per gli algoritmi di regressione usando test di significatività statistica e misure di goodness-of-fit, come ad esempio:

  • test-f e test-t;
  • R2 e R2 corretto
  • errore quadratico medio con cross-validation;
  • Criterio di informazione di Akaike (AIC) e criterio di informazione Bayesiano (BIC).

È possibile calcolare gli intervalli di confidenza sia per i coefficienti di regressione che per i valori predetti.


ANOVA

L'analisi di varianza (ANOVA) consente di assegnare la varianza campione a diverse sorgenti e determinare se la variazione compare all'interno o tra diversi gruppi di popolazione. Statistics and Machine Learning Toolbox include i seguenti algoritmi ANOVA e le tecniche correlate:

Esegui un ANOVA a N vie sui dati relativi all’automobile e altre informazioni su 406 vetture costruite tra il 1970 e il 1982.

Distribuzioni di probabilità

Statistics and Machine Learning Toolbox fornisce funzioni e un'app per lavorare con distribuzioni di probabilità parametriche e non parametriche. Mediante questi strumenti, è possibile eseguire il fitting di distribuzioni continue e discrete, utilizzare grafici statistici per valutare la bontà del fitting, calcolare le funzioni di densità di probabilità e le funzioni di distribuzione cumulativa e generare numeri causali e quasi causali dalle distribuzioni probabilistiche.

Il toolbox consente di calcolare, eseguire il fitting, generare flussi di numeri casuali e pseudocasuali e valutare la bontà del fitting per oltre 40 differenti distribuzioni, tra cui:


Fitting delle distribuzioni dei dati

L'app Distribution Fitting consente di eseguire il fitting dei dati utilizzando distribuzioni probabilistiche univariate predefinite, uno stimatore non parametrico (kernel-smoothing) o una distribuzione personalizzata definita dall'utente. Quest'app supporta sia i dati completi che i dati censurati (affidabilità). È possibile escludere i dati, salvare e caricare sessioni e generare il codice MATLAB. È inoltre possibile stimare i parametri di distribuzione nella riga di comando o creare distribuzioni probabilistiche che corrispondono ai parametri in corso.

Esegui il fitting interattivo di una distribuzione di probabilità dei dati con l’app Distribution Fitting.

Valutare la bontà del fitting

Statistics and Machine Learning Toolbox offre grafici statistici per valutare quanto un set di dati corrisponde ad una specifica distribuzione. Il toolbox include grafici di probabilità per diverse distribuzioni standard, tra cui la normale, esponenziale, valore estremo, lognormale, di Rayleigh e Weibull. È possibile generare grafici di probabilità da set di dati completi e set di dati censurati. Inoltre, si possono utilizzare grafici quantile-quantile per valutare quanto una determinata distribuzione corrisponda ad una distribuzione normale standard.

Statistics and Machine Learning Toolbox fornisce inoltre test di ipotesi per determinare se un set di dati è coerente con le diverse distribuzioni probabilistiche. I test di distribuzione specifica includono:

  • test di Anderson-Darling;
  • test di Kolmogorov-Smirnov a uno e due lati;
  • test del chi-quadrato per la bontà del fitting;
  • test di Lilliefors;
  • test di Ansari-Bradley;
  • test di Jarque-Bera;
  • test di Durbin-Watson.
Eseguire una stima di massima verosimiglianza su dati troncati, ponderati o bimodali

Generazione di numeri casuali

Il toolbox offre funzioni per la generazione di sequenze di numeri pseudo-casuali e quasi-casuali da distribuzioni di probabilità. Si possono generare numeri casuali o approssimando o costruendo una distribuzione di probabilità applicando il metodo random. Statistics and Machine Learning Toolbox inoltre fornisce funzioni per:

  • generare campioni casuali da distribuzioni multivariate, quali t, normale, copule e di Wishart;
  • eseguire il campionamento da popolazioni finite;
  • eseguire il campionamento con con la tecnica Latin hypercube;
  • generare campioni dai sistemi di distribuzione di Pearson e di Johnson.

È inoltre possibile generare flussi di numeri quasi-casuali. I flussi di numeri quasi-casuali producono campioni estremamente uniformi dall’ipercubo unitario. I flussi di numeri quasi-casuali spesso possono accelerare le simulazioni Monte Carlo poiché per ottenere la copertura completa sono necessari meno campioni.

Usa le copule per generare dati da distribuzioni multivariate in presenza di relazioni complesse tra le variabili o quando le variabili individuali derivano da distribuzioni differenti.

Test delle ipotesi, progettazione di esperimenti e controllo statistico di processo


Test delle ipotesi

La variazione casuale può rendere difficile determinare se i campioni prelevati in diverse condizioni sono effettivamente differenti. Il test delle ipotesi è uno strumento efficace per analizzare se le differenze da campione a campione sono significative e se richiedono ulteriore valutazione o se sono coerenti con la casualità e la variazione attesa dei dati.

Statistics and Machine Learning Toolbox supporta ampiamente le procedure di test delle ipotesi parametriche e non parametriche, tra cui:

  • T-test per uno o due campioni
  • test non parametrici per un campione, campioni accoppiati e due campioni indipendenti;
  • test di distribuzione (chi-quadrato, Jarque-Bera, Lilliefors e Kolmogorov-Smirnov);
  • confronto delle distribuzioni (Kolmogorov-Smirnov per due campioni);
  • test per autocorrelazione e casualità;
  • test delle ipotesi lineari su coefficienti di regressione.
Calcola la dimensione del campione necessaria per un test di ipotesi.

Progettazione di esperimenti (DOE)

Statistics and Machine Learning Toolbox può essere utilizzato per definire, analizzare e visualizzare una DOE (progettazione di esperimenti) personalizzata. Le funzioni per la DOE consentono di creare e verificare i piani pratici per la raccolta di dati per la modellazione statistica. Questi piani mostrano come manipolare i dati in ingresso in tandem per generare informazioni circa i loro effetti sui dati in uscita. I tipi di progettazione supportati includono:

  • fattoriale completo;
  • fattoriale frazionale;
  • superficie di risposta (central composite e Box-Behnken);
  • D-ottimale;
  • Latin hypercube.

Per esempio, è possibile stimare gli effetti di input e le interazioni di input tramite modelli ANOVA, regressione lineare e modellazione della superficie di risposta, quindi visualizzare i risultati tramite main effect plots, interaction plots e multivariate charts.

Genera progetti central composite e Box-Behnken.

Controllo statistico di processo

Statistics and Machine Learning Toolbox fornisce una serie di funzioni che supportano il controllo statistico di processo (SPC). Queste funzioni consentono di monitorare e migliorare prodotti o processi valutando la variabilità del processo. Le funzioni SPC consentono di:

  • Eseguire studi di ripetibilità e riproducibilità;
  • stimare la funzionalità del processo;
  • creare grafici di controllo;
  • Applicare le regole di controllo Western Electric e Nelson ai dati del grafico di controllo.
Visualizza i limiti di controllo del processo di raffreddamento del motore utilizzando i grafici di controllo.

Big data, calcolo parallelo e generazione di codice

Utilizzando i tool MATLAB con lo Statistics and Machine Learning Toolbox è possibile eseguire analisi statistiche data-intensive e computazionalmente intensi.


Big Data

È possibile utilizzare molte delle funzioni del toolbox con i tall array e le tall table per applicare le funzioni statistiche e di machine learning su dati out-of-memory che hanno un numero arbitrario di colonne. Ciò consente di utilizzare il comune codice MATLAB per lavorare con grandi set di dati su dischi locali. È inoltre possibile utilizzare MATLAB Compiler™ per la distribuzione dello stesso codice MATLAB per lavorare in grandi ambienti di dati come Hadoop®.

Consulta la documentazione relativa al toolbox per un elenco completo delle funzioni supportate.

Effettua una previsione del ritardo sulla partenza dei voli sulla base di una serie di variabili.

Calcolo parallelo

È possibile utilizzare Statistics and Machine Learning Toolbox con Parallel Computing Toolbox™ per ridurre i tempi di calcolo statistico tra cui:

Consulta la documentazione relativa al toolbox per un elenco completo delle funzioni supportate.

Esegui la regressione del rating di rischio assicurativo per le importazioni di automobili utilizzando TreeBagger in parallelo.

Generazione di codice C

È possibile utilizzare il toolbox con MATLAB Coder™ per generare codice C leggibile e portatile per funzioni selezionate di classificazione, regressione, clustering, statistiche descrittive e distribuzioni probabilistiche. È possibile utilizzare il codice generato per impiegare le statistiche e il machine learning per:

  • sviluppo di sistemi embedded;
  • integrazione con altro software;
  • accelerazione di codice MATLAB computazionalmente intenso.
Genera codice C per una funzione MATLAB per stimare la posizione di un oggetto in movimento in base alle misurazioni del rumore precedenti.