Statistics Toolbox

Funzionalità principali

  • Tecniche di regressione, tra cui regressione lineare, modelli lineari generalizzati, regressione non lineare, robusta, regolarizzata, ANOVA e modelli a effetti misti
  • Modellazione ripetuta delle misure per i dati con misurazioni multiple per ciascun soggetto
  • Distribuzioni probabilistiche univariate e multivariate, tra cui copule e misture di gaussiane
  • Generatori di numeri casuali e quasi-casuali e campionatori basati sule catene di Markov
  • Test delle ipotesi per distribuzioni, dispersione, nonché tecniche di progettazione di esperimenti (DOE)
  • Algoritmi di apprendimento automatico con supervisione, tra cui support vector machine (SVM), alberi decisionali con boosting e bagging, classificazione k-Nearest Neighbor, classificazione Naïve Bayes, e analisi discriminante
  • Algoritmi di apprendimento automatico senza supervisione, tra cui k-means e clustering gerarchico, misture di gaussiane e modelli di Markov nascosti

Analisi esplorativa dei dati

Statistics Toolbox offre diversi modi per esplorare i dati: rappresentazione statistica con grafici interattivi, algoritmi per cluster analisi e statistiche descrittive per set di dati di grandi dimensioni.

Rappresentazione statistica e grafici interattivi

Statistics Toolbox contiene grafici per esplorare i dati in modo visivo. Il toolbox amplia il numero di grafici MATLAB® con grafici di probabilità, box plot, istogrammi, istogrammi a dispersione, istogrammi 3D, grafici di controllo e grafici quantile-quantile. Il toolbox contiene anche grafici speciali per analisi multivariate, tra cui dendrogrammi, biplot, grafici a coordinate parallele e grafici di Andrews.

Matrice de nuage de points groupée montrant les interactions entre 5 variables.
Matrice di grafico a dispersione a gruppi che mostra le interazioni tra cinque variabili
Visualizzazione di dati multivariati (esempio)
Come visualizzare dati multivariati usando vari grafici statistici
Diagramme en boîte à moustache compact pour réponse groupée par année à la recherche de potentiels effets fixes spécifiques à l’année.
Grafico box plot con baffi che raggruppa la risposta per anno, al fine di ricercare potenziali effetti fissi specifici di un certo anno
Histogramme en nuage de points à l’aide d’une combinaison de nuages de point et d’histogrammes pour décrire la relation entre les variables.
Istogrammi a dispersione che utilizzano una combinazione di grafici a dispersione e istogrammi per descrivere il rapporto tra le variabili
Diagramme comparant le CDF empirique pour un échantillon depuis une distribution de valeurs extrêmes avec un diagramme du CDF pour la distribution d’échantillonnage.
Grafici che confrontano la CDF empirica per un campione da una distribuzione del valore estremo con un grafico della CDF per la distribuzione di campionamento
Modellazione di dati con distribuzione del valore estremo generalizzato (esempio)
Come adattare la distribuzione del valore estremo generalizzato usando la stima di massima verosimiglianza

Statistiche descrittive

Le statistiche descrittive consentono di comprendere e descrivere rapidamente set di dati potenzialmente grandi. Statistics Toolbox contiene funzioni per il calcolo di:

Queste funzioni aiutano a riepilogare i valori nei dati campione usando pochi numeri estremamente rilevanti.

Tecniche di ricampionamento

In alcuni casi, non è possibile stimare statistiche di sintesi usando metodi parametrici. Per gestire questi casi, Statistics Toolbox offre tecniche di ricampionamento, tra cui:

  • campionamento casuale da un set di dati con o senza sostituzione.
  • funzione bootstrap generalizzata per stimare le statistiche sui campioni usando il ricampionamento.
  • funzione jackknife per stimare le statistiche sui campioni usando sottoinsiemi di dati.
  • funzione bootci per stimare gli intervalli di confidenza.

Regressione e ANOVA

Regressione

Con la regressione, è possibile modellare una variabile di risposta continua in funzione di uno o più predittori. Statistics Toolbox offre una vasta gamma di algoritmi di regressione, tra cui regressione lineare, modelli lineari generalizzati, regressione non lineare e modelli a effetti misti.

Regressione lineare

La regressione lineare è una tecnica di modellazione statistica usata per descrivere una variabile di risposta continua in funzione di una o più variabili del predittore. Può contribuire a capire e a prevedere il comportamento di sistemi complessi, nonché ad analizzare dati sperimentali, finanziari e biologici.

Il toolbox offre vari modelli di regressione lineare e vari metodi di fitting, tra cui:

  • Semplice: modello con un solo predittore.
  • Multiplo: modello con predittori multipli.
  • Multivariato: modello con variabili di risposta multiple.
  • Robusto: modello in presenza di outlier.
  • Graduale: modello con selezione automatica delle variabili.
  • Regolarizzato: modello che può gestire predittori ridondanti e prevenire l’overfitting usando algoritmi di ridge, lasso ed elastic net.

Statistica computazionale: Selezione funzioni, regolarizzazione e shrinkage con MATLAB
Apprendere come generare precisi fitting in presenza di dati correlati.

Regressione non lineare

La regressione non lineare è una tecnica di modellazione statistica che aiuta a descrivere le relazioni non lineari in dati sperimentali. In genere si presuppone che i modelli di regressione non lineare siano parametrici, con il modello che è descritto come un’equazione non lineare. Per la regressione non lineare non parametrica, vengono tipicamente utilizzati i metodi di apprendimento automatico.

Il toolbox offre inoltre un fitting non lineare di tipo robusto per gestire gli outlier nei dati.

Modelli lineari generalizzati

I modelli lineari generalizzati sono un tipo speciale di modello non lineare che utilizza metodi lineari. Essi consentono alle variabili di risposta di avere distribuzioni non normali e una funzione di link che descrive come il valore atteso della risposta sia correlato ai predittori lineari.

Statistics Toolbox supporta il fitting di modelli lineari generalizzati con le seguenti distribuzioni di risposta:

  • Normale (regressione probit).
  • Binomiale (regressione logistica).
  • Poisson.
  • Gamma.
  • Gaussiana inversa.
Fitting di dati con modelli lineari generalizzati (esempio)
Come eseguire il fitting e la valutazione di modelli lineari generalizzati usando glmfit e glmval

Modelli a effetti misti

I modelli a effetti misti lineari e non lineari sono generalizzazioni di modelli lineari e non lineari per dati raccolti e sintetizzati in gruppi. Tali modelli descrivono la relazioni fra una variabile di risposta e variabili indipendenti, con coefficienti che possono variare in relazione a una o più variabili di raggruppamento.

Statistics Toolbox supporta il fitting di modelli multilivello o gerarchici con effetti casuali nidificati e/o incrociati, che si possono usare per eseguire svariati studi fra cui:

  • analisi longitudinale/analisi di panel.
  • modellazione delle misure ripetute.
  • modellazione di crescita.
rafico di confronto fra i prodotti interni lordi di tre Stati: a sinistra, il fitting ha usato un modello a effetti misti multilivello; a destra, il fitting ha usato i minimi quadrati. La funzione <code>fitlme</code> di Statistics Toolbox può creare modelli con precisione predittiva crescente quando i dati vengono raccolti e sintetizzati in gruppi.
rafico di confronto fra i prodotti interni lordi di tre Stati: a sinistra, il fitting ha usato un modello a effetti misti multilivello; a destra, il fitting ha usato i minimi quadrati. La funzione fitlme di Statistics Toolbox può creare modelli con precisione predittiva crescente quando i dati vengono raccolti e sintetizzati in gruppi.

Valutazione dei modelli

Statistics Toolbox consente di valutare i modelli per gli algoritmi di regressione usando test di significatività statistica e misure di bontà del fitting, come ad esempio:

  • statistica f e statistica t.
  • R2 e R2 aggiustato.
  • errore quadratico medio a convalida incrociata.
  • criterio di informazione Akaike (AIC) e criterio di informazione Bayesiano (BIC).

È possibile calcolare gli intervalli di confidenza sia per i coefficienti di regressione che per i valori stimati.

Regressione non parametrica

Statistics Toolbox supporta anche tecniche di regressione non parametriche per la generazione di fitting accurati senza specificare un modello che descriva la relazione tra il predittore e la risposta. Le tecniche di regressione non parametrica possono essere fatte rientrare nella più ampia categoria dell’apprendimento automatico con supervisione e includono alberi decisionali, alberi di regressione con boosting e alberi di regressione con bagging.

Fitting non parametrico
Sviluppare un modello predittivo quando non è possibile specificare una funzione che descriva la relazione tra le variabili.

ANOVA

L’analisi di varianza (ANOVA) consente di assegnare la varianza campione a diverse sorgenti e determinare se la variazione compare all’interno o tra diversi gruppi di popolazione. Statistics Toolbox include i seguenti algoritmi ANOVA e le tecniche correlate:

Apprendimento automatico

Gli algoritmi di apprendimento automatico (machine learning) usano metodi computazionali per “imparare” informazioni direttamente dai dati senza presupporre un’equazione predeterminata come modello. Essi possono migliorare in modo adattivo le loro prestazioni man mano che aumenta il numero di campioni disponibili per l’apprendimento.

Machine Learning con MATLAB
Prepara i dati e addestra i modelli di machine learning con MATLAB®

Classificazione

Gli algoritmi di classificazione consentono di modellare una variabile di risposta categorica in funzione di uno o più predittori. Statistics Toolbox offre una vasta gamma di algoritmi di classificazione parametrici e non parametrici, quali:

Introduzione alla classificazione
Sviluppare modelli predittivi per la classificazione di dati.

È possibile valutare la bontà del fitting per i modelli di classificazione risultanti usando tecniche quali:

Cluster Analisi

Statistics Toolbox offre vari algoritmi per analizzare i dati usando la clusterizzazione k-means, clustering gerarchico, modelli di misture di gaussiane o modelli di Markov nascosti. Quando il numero di cluster è sconosciuto, il toolbox fornisce tecniche di valutazione dei cluster per stabilire il numero di cluster presenti nei dati, in base a una metrica specifica.

Graphique montrant des modèles naturels dans les profils d’expression génique obtenus à partir de levure de boulanger. La procédure d’analyse en composantes principales et les algorithmes de classement par k-means sont utilisés pour trouver des clusters dans les données de profils.
Grafico che mostra gli schemi naturali nei profili di espressione genica ottenuti dal lievito di birra. L’analisi del componente principale (PCA) e gli algoritmi di clustering k-means vengono utilizzati per trovare i cluster nei dati del profilo.

Eseguire il clustering dei geni usando k-means (esempio)
Come rilevare gli schemi nei profili di espressione genica esaminando i dati dell’espressione genica

Fitting di modello di mistura gaussiana a due componenti in una mistura di bivariate gaussiane
Fitting di modello di mistura gaussiana a due componenti in una mistura di bivariate gaussiane
Sortie à partir de l’application d’un algorithme de classement sur le même exemple.
Output dall’applicazione di un algoritmo di clusterizzazione allo stesso esempio
Dendrogramme qui affiche un modèle avec 4 clusters.
Dendrogramma che mostra un modello con quattro cluster
Analisi cluster (esempio)
Uso di k-means e clustering gerarchico per scoprire i raggruppamenti naturali nei dati

Regressione

Gli algoritmi di regressione consentono di modellare una variabile di risposta continua in funzione di uno o più predittori. Statistics Toolbox offre una vasta gamma di algoritmi di classificazione parametrici e non parametrici, quali:

Statistica computazionale: Selezione funzioni, regolarizzazione e shrinkage con MATLAB
Apprendere come generare precisi fitting in presenza di dati correlati.

Statistica multivariata

La statistica multivariata fornisce algoritmi e funzioni per l’analisi di più variabili. Le applicazioni tipiche includono la riduzione della dimensionalità mediante trasformazione delle feature e selezione delle feature, nonché l’esplorazione delle relazioni tra le variabili tramite tecniche di visualizzazione, quali scatter plot di matrici e scaling multidimensionale.

Fitting di una regressione ortogonale tramite analisi alle componenti principali (esempio)
Implementare la regressione Deming (minimi quadrati totali)

Trasformazione delle feature

La trasformazione delle feature (a volte chiamata “estrazione delle feature”) è una riduzione di dimensionalità che trasforma feature esistenti in nuove feature (variabili del predittore) in cui vengono eliminate le feature meno descrittive. Il toolbox mette a disposizione i seguenti approcci per la trasformazione delle feature:

Regressione parziale ai minimi quadrati e regressione delle componenti principali (esempio)
Modellare una variabile di risposta in presenza di predittori altamente correlati

Selezione delle feature

La selezione delle feature è una tecnica di riduzione della dimensionalità che seleziona solo il sottoinsieme di feature misurate (variabili del predittore) che fornisce il migliore potere predittivo nella modellazione dei dati. È utile quando si affrontano dati di ampie dimensioni oppure quando la raccolta di dati per tutte le feature è proibitiva dal punto di vista dei costi.

I metodi di selezione delle feature includono:

  • la regressione stepwise aggiunge o rimuove sequenzialmente le feature finché non si ha alcun miglioramento nell’accuratezza della previsione; può essere usata con gli algoritmi di regressione lineare o di regressione lineare generalizzata.
  • la selezione sequenziale delle feature è simile alla regressione stepwise e può essere usata con qualsiasi algoritmo di apprendimento con supervisione e una misura delle prestazioni personalizzata.
  • la regolarizzazione (di tippo lasso ed elastic net) utilizza gli stimatori di restringimento per rimuovere le feature ridondanti riducendo i loro pesi (coefficienti) a zero.

La selezione delle feature può essere usata per:

  • migliorare la precisione di un algoritmo di apprendimento automatico.
  • migliorare le prestazioni su dati di grandi dimensioni.
  • migliorare l’interpretabilità dei modelli.
  • prevenire l’overfitting.
Selezione delle feature per classificare dati di grandi dimensioni (esempio)

Selezione delle feature importanti per la rilevazione dei tumori

Visualizzazione multivariata

Statistics Toolbox contiene grafici per esplorare i dati multivariati in modo visivo, tra cui:

  • grafici di dispersione matriciali.
  • dendogrammi.
  • biplot.
  • grafici a coordinate parallele.
  • grafici di Andrews.
  • grafici di Glyph.
Matrice de nuage de points groupée montrant comment l’année du modèle a un impact sur les différentes variables.
Scatter plotmatriciale che mostra come l’anno del modello influenza le diverse variabili
Diagramme de double projection montrant les trois premiers chargements à partir de l’analyse en composantes principales.
Biplot che visualizza i primi tre loading da un’analisi alle componenti principali
Diagramme d’Andrews montrant comment le pays d’origine a un impact sur les variables.
Grafico di Andrews che visualizza come il Paese di origine influenza le variabili

Distribuzioni probabilistiche

Statistics Toolbox fornisce funzioni e un’app per lavorare con distribuzioni probabilistiche parametriche e non parametriche.

Il toolbox consente di calcolare, eseguire il fitting e generare campioni da oltre 40 differenti distribuzioni, tra cui:

Consultare l’elenco completo delle distribuzioni supportate.

Con questi strumenti è possibile:

  • adattare le distribuzioni ai dati.
  • usare grafici statistici per valutare la bontà del fitting.
  • calcolare funzioni chiave quali funzioni di densità di probabilità e funzioni di distribuzione cumulativa.
  • generare flussi di numeri casuali e quasi-casuali dalle distribuzioni probabilistiche.

Fitting delle distribuzioni ai dati

L’app Distribution Fitting consente di fittare i dati utilizzando distribuzioni probabilistiche univariate predefinite, un estimatore non parametrico (kernel-smoothing) o una distribuzione personalizzata definita dall’utente. Quest’app supporta sia i dati completi che i dati censurati (affidabilità). È possibile escludere i dati, salvare e caricare sessioni e generare il codice MATLAB.

Affichage graphique de distribution et de statistiques récapitulatives.
Grafico dei dati di distribuzione (sinistra) e statistiche di sintesi (destra). Usando l’app Distribution Fitting, è possibile stimare una distribuzione normale con calcolo della media e della varianza (in questo esempio rispettivamente 16,9 e 8,7).

Si possono stimare i parametri di distribuzione da riga di comando o creare distribuzioni probabilistiche che corrispondono ai parametri.

Inoltre, si possono creare distribuzioni probabilistiche multivariate, tra cui misture di gaussiane e distribuzioni multivariate normali, multivariate t e Wishart. Si possono utilizzare le copule per creare distribuzioni multivariate tramite l’unione di distribuzioni marginali arbitrarie usando strutture di correlazione.

Simulazione di numeri casuali dipendenti usando le copule (esempio)
Creare distribuzioni che modellano i dati multivariati correlati

Con il toolbox, è possibile specificare distribuzioni personalizzate ed eseguirne il fitting usando una stima di massima verosimiglianza.

Fitting di distribuzioni univariate personalizzate (esempio)
Eseguire una stima di massima verosimiglianza su dati troncati, ponderati o bimodali

Valutazione della bontà del fitting

Statistics Toolbox offre grafici statistici per valutare quanto un set di dati corrisponde ad una specifica distribuzione. Il toolbox include grafici di probabilità per diverse distribuzioni standard, tra cui normale, esponenziale, valore estremo, lognormale, Rayleigh e Weibull. È possibile generare grafici di probabilità da set di dati completi e set di dati censurati. Inoltre, si possono utilizzare grafici quantile-quantile per valutare quanto una determinata distribuzione corrisponde ad una distribuzione standard normale.

Statistics Toolbox fornisce inoltre test di ipotesi per determinare se un set di dati è coerente con le diverse distribuzioni probabilistiche. I test specifici comprendono:

  • test del chi-quadrato per la bontà del fitting.
  • test Kolmogorov-Smirnov.
  • test Lilliefors.
  • test Ansari-Bradley.
  • test Jarque-Bera.

Analisi delle distribuzioni probabilistiche

Statistics Toolbox fornisce funzioni per l’analisi delle distribuzioni probabilistiche, tra cui:

  • funzioni di densità di probabilità.
  • funzioni di densità di cumulativa.
  • funzioni di densità cumulativa inversa.
  • funzioni di log-likelihood negative.

Generazione di numeri casuali

Statistics Toolbox offre funzioni per la generazione di sequenze di numeri pseudo-casuali e quasi-casuali da distribuzioni probabilistiche. Si possono generare numeri casuali da una distribuzione proabilistica adattata o creata applicando il metodo casuale.

Code MATLAB pour la construction d'une distribution de Poisson avec une moyenne spécifique et pour la génération d'un vecteur de nombres aléatoires qui correspondent à la distribution.
Codice MATLAB per la creazione di una distribuzione di Poisson con una media specifica e generazione di un vettore di numeri casuali corrispondente alla distribuzione

Statistics Toolbox fornisce inoltre funzioni per:

  • generare campioni casuali da distribuzioni multivariate, quali t, normale, copule e Wishart.
  • eseguire il campionamento da popolazioni finite.
  • eseguire il campionamento ipercubo latino.
  • generare campioni dai sistemi di distribuzione Pearson e Johnson.

Si possono inoltre generare flussi di numeri quasi-casuali. I flussi di numeri quasi-casuali producono campioni estremamente uniformi dall’ipercubo dell’unità. I flussi di numeri quasi-casuali spesso possono accelerare le simulazioni Monte Carlo poiché per ottenere la copertura completa sono necessari meno campioni.

Generazione di codice

MATLAB Coder consente di generare codice C portabile e leggibile per oltre 100 funzioni di Statistics Toolbox, tra cui le distribuzioni probabilistiche e le statistiche descrittive. Il codice generato può essere usato per:

  • esecuzione standalone.
  • integrazione con altro software.
  • accelerazione degli algoritmi statistici.
  • implementazione embedded.

Accelerare i calcoli statistici usando il calcolo parallelo

Statistics Toolbox può essere usato con Parallel Computing Toolbox™ per ridurre i tempi di calcolo. Il toolbox offre un supporto integrato al calcolo parallelo per algoritmi quali convalida incrociata e bootstrapping; consente inoltre di velocizzare la simulazione Monte Carlo e altri problemi statistici.

Il supporto integrato per il calcolo parallelo di Statistics Toolbox consente di eseguire calcoli statistici in parallelo, aumentando la velocità e riducendo i tempi di esecuzione di programmi e funzioni.

Calcoli paralleli riproducibili

È possibile velocizzare la generazione di numeri casuali mantenendo le stesse proprietà statistiche dei numeri casuali generati senza parallelizzazione. Ciò fa sì che il calcolo basato su tali numeri casuali sia completamente riproducible.

Test delle ipotesi, progettazione di esperimenti e controllo dei processi basato sulla statistica

Test delle ipotesi

La variazione casuale può rendere difficile determinare se i campioni prelevati in diverse condizioni sono effettivamente differenti. Il test delle ipotesi è uno strumento efficace per analizzare se le differenze da campione a campione sono significative e richiedono ulteriore valutazione o se sono coerenti alla variazione dei dati casuale e attesa.

Statistics Toolbox supporta ampiamente le procedure di test delle ipotesi parametriche e non parametriche, tra cui:

  • test T per uno e due campioni.
  • test non parametrici per un campione, campioni accoppiati e due campioni indipendenti.
  • test di distribuzione (chi-quadrato, Jarque-Bera, Lillifors e Kolmogorov-Smirnov).
  • confronto delle distribuzioni (Kolmogorov-Smirnov per due campioni).
  • test per autocorrelazione e casualità.
  • test delle ipotesi lineari su coefficienti di regressione
Selezione della dimensione di un campione (esempio)
Calcolare la dimensione del campione necessaria per un test delle ipotesi

Progettazione di esperimenti

Le funzioni per la progettazione di esperimenti (DOE) consentono di creare e verificare i piani pratici per la raccolta di dati per la modellazione statistica. Questi piani mostrano come manipolare i dati in ingresso in tandem per generare informazioni sul loro effetto sui dati in uscita. I tipi di progettazione supportati includono:

  • fattoriale completo.
  • fattoriale frazionale.
  • superficie di risposta (central composite e Box-Behnken).
  • D-ottimale.
  • ipercubo latino.

Statistics Toolbox può essere utilizzato per definire, analizzare e visualizzare un DOE personalizzato. Ad esempio, si possono stimare gli effetti di input e le interazioni di input tramite ANOVA, regressione lineare e modellazione della superficie di risposta, quindi visualizzare i risultati tramite grafici degli effetti principali, grafici di interazione e grafici multivariati.

Ajustement d'un arbre de décision aux données.
Fitting di un albero decisionale ai dati. Le funzionalità di fitting di Statistics Toolbox consentono di visualizzare un albero decisionale disegnando un diagramma della regola decisionale e assegnazioni di gruppo.
Modello di una reazione chimica in un esperimento che utilizza le funzioni di progettazione di esperimenti (DOE) e fitting di superfici di Statistics Toolbox
Modello di una reazione chimica in un esperimento che utilizza le funzioni di progettazione di esperimenti (DOE) e fitting di superfici di Statistics Toolbox

Controllo dei processi basato sulla statistica

Statistics Toolbox fornisce una serie di funzioni che supportano il controllo dei processi basato sulla statistica (SPC). Queste funzioni consentono di monitorare e migliorare prodotti o processi valutando la variabilità del processo. Le funzioni SPC consentono di:

  • eseguire studi di ripetibilità e riproducibilità.
  • stimare la funzionalità del processo.
  • creare grafici di controllo.
  • applicare regole di controllo Western Electric e Nelson ai dati del grafico di controllo.
Grafici di controllo che mostrano i dati del processo e le violazioni delle regole di controllo Western Electric. Statistics Toolbox offre diversi grafici di controllo e regole di controllo per il monitoraggio e la valutazione di prodotti o processi.
Grafici di controllo che mostrano i dati del processo e le violazioni delle regole di controllo Western Electric. Statistics Toolbox offre diversi grafici di controllo e regole di controllo per il monitoraggio e la valutazione di prodotti o processi.

Riconoscimento facciale con MATLAB

Visualizza webinar