Capitolo 4
Applicazione dell’apprendimento con supervisione
Quando prendere in considerazione l’apprendimento con supervisione
Un algoritmo di apprendimento con supervisione usa un set noto di dati di input (set di apprendimento) e di risposte ai dati note (output) e addestra un modello per generare previsioni ragionevoli in merito alla risposta a nuovi dati di input. Usa l’apprendimento con supervisione se disponi di dati esistenti relativi all’output che stai cercando di prevedere.
Tutte le tecniche di apprendimento con supervisione sono una forma di classificazione o di regressione.

- 2x
- 1.5x
- 1.25x
- 1x, selezionato
- 0.75x
- 0.5x
- 0.25x
- Capitolo
- Descrizioni disattivate, selezionato
- Impostazioni sottotitoli, aprire le impostazioni dei sottotitoli
- Senza sottotitoli, selezionato
- 日本語
- 한국어
- en (Main), selezionato
This is a modal window.
Inizio della finestra di dialogo. Il tasto Esc annullerà l’operazione e chiuderà la finestra.
Fine della finestra di dialogo.
This is a modal window. Questa finestra di dialogo può essere chiusa premendo sul tasto Esc o attivando il pulsante di chiusura.
Le tecniche di classificazione prevedono risposte discrete, ad esempio se un’email è autentica o è spam oppure se un tumore ha dimensioni piccole, medie o grandi. I modelli di classificazione vengono addestrati per classificare i dati in categorie. Tra le applicazioni compaiono la diagnostica per immagini, il riconoscimento vocale e la valutazione del credito.
Le tecniche di regressione prevedono risposte continue, ad esempio cambi di temperatura o fluttuazioni della domanda di energia elettrica. Tra le applicazioni compaiono la previsione dei prezzi delle azioni, il riconoscimento di testo scritto a mano e l’elaborazione di segnali acustici.
Selezione dell’algoritmo più adatto
Come abbiamo visto nel capitolo 1, per selezionare un algoritmo di Machine Learning è necessario passare per un apprendimento di tentativi ed errori. Si tratta inoltre di trovare il giusto compromesso tra caratteristiche specifiche dell’algoritmo, quali:
- Velocità di addestramento
- Utilizzo della memoria
- Precisione delle previsioni su dati nuovi
- Trasparenza o interpretabilità (facilità con cui si è in grado di comprendere i motivi per cui un algoritmo fa determinate previsioni)
Algoritmi di classificazione comuni
Albero di decisione
COME FUNZIONA
Un albero di decisione consente di prevedere risposte ai dati seguendo le decisioni nell’albero dalla radice (inizio) fino a un nodo foglia. Gli alberi sono costituiti da condizioni di diramazione in cui il valore di un predittore viene confrontato con un peso addestrato. Il numero di ramificazioni e i valori dei pesi sono determinati nel processo di addestramento. Una modifica aggiuntiva, o pruning, può essere utilizzata per semplificare il modello.SOLUZIONE MIGLIORE...
- Quando occorre un algoritmo facile da interpretare e veloce da adattare
- Per ridurre al minimo l’utilizzo di memoria
- Quando non occorre un’elevata precisione delle previsioni
Alberi di decisione con bagging e boosting
COME FUNZIONA
In questi metodi d’insieme, diversi alberi decisionali “più deboli” vengono uniti per creare un insieme “più forte”.Un albero di decisione con bagging è costituito da alberi che vengono addestrati in modo indipendente su dati aggregati tramite bootstrap dai dati di input.
Il boosting prevede la creazione di un learner forte aggiungendo iterativamente learner “deboli” e regolando il peso di ciascun learner debole per focalizzarsi su esempi di classificazione errata.
SOLUZIONE MIGLIORE...
- Quando i predittori sono categorici (discreti) o si comportano in modo non lineare
- Quando il tempo necessario per l’addestramento di un modello non è un fattore determinante
Regressione logistica
COME FUNZIONA
Si adatta a un modello in grado di prevedere la probabilità con cui una risposta binaria appartiene a una classe o all’altra. Per la sua semplicità, in genere la regressione logistica viene utilizzata come punto di partenza per i problemi di classificazione binaria.SOLUZIONE MIGLIORE...
- Quando i dati possono essere separati chiaramente da un unico confine lineare
- Come base per valutare metodi di classificazione più complessi
k-Nearest Neighbor (kNN)
COME FUNZIONA
Il kNN categorizza gli oggetti in base alle classi degli elementi più vicini (nearest neighbor) nel set di dati. Le previsioni con kNN presuppongono che gli oggetti vicini siano simili tra loro. Per trovare il nearest neighbor vengono utilizzate metriche di distanza, come la distanza euclidea, city-block, del coseno e di Chebyshev.SOLUZIONE MIGLIORE...
- Quando si ha bisogno di un algoritmo semplice per determinare regole di apprendimento di riferimento
- Quando l’utilizzo della memoria del modello addestrato non è fondamentale
- Quando la velocità di previsione del modello addestrato non è fondamentale
Macchina a vettori di supporto (SVM)
COME FUNZIONA
Classifica i dati trovando il confine lineare di decisione (iperpiano) che separa tutti i punti di dati di una classe da quelli dell’altra classe. L’iperpiano migliore per una SVM è quello con il margine più ampio tra le due classi, quando i dati sono linearmente separabili. Se i dati non sono linearmente separabili, si utilizza una funzione di perdita per penalizzare i punti che si trovano sul lato sbagliato dell’iperpiano. Talvolta le SVM usano una trasformata kernel per trasformare i dati non separabili linearmente in dimensioni maggiori in cui sia possibile individuare un confine lineare di decisione.SOLUZIONE MIGLIORE...
- Per i dati che hanno esattamente due classi (si può usare anche per la classificazione multi-classe con una tecnica chiamata ECOC, ovvero codici a correzione di errore)
- Per dati di grandi dimensioni, che non possono essere separati linearmente
- Quando occorre un classificatore semplice, facile da interpretare e accurato
Rete neurale
COME FUNZIONA
Ispirata al cervello umano, una rete neurale è costituita da reti di neuroni altamente connessi che mettono in correlazione gli input agli output desiderati. La rete viene addestrata modificando in modo iterativo la forza delle connessioni in modo tale che determinati input si colleghino alla risposta corretta.SOLUZIONE MIGLIORE...
- Per la modellazione di sistemi altamente non lineari
- Quando i dati sono disponibili in modo incrementale e si desidera aggiornare con costanza il modello
- Quando i dati di input potrebbero subire modifiche impreviste
- Quando l’interpretabilità dei modelli non è un fattore determinante
Naive Bayes
COME FUNZIONA
Un classificatore naive Bayes presuppone che la presenza di una particolare feature in una classe non sia correlata alla presenza di nessun’altra feature. Classifica i dati nuovi in base alla probabilità più alta che appartengano a una particolare classe.SOLUZIONE MIGLIORE...
- Per un set di dati di piccole dimensioni che contiene molti parametri
- Quando occorre un classificatore facile da interpretare
- Quando il modello si troverà in scenari che non erano presenti nei dati di addestramento, come nel caso di molte applicazioni mediche e finanziarie
Analisi discriminante
COME FUNZIONA
L’analisi discriminante classifica i dati trovando combinazioni di feature lineari. L’analisi discriminante presuppone che classi diverse generino dati in base a distribuzioni gaussiane. Per addestrare un modello di analisi discriminante occorre trovare i parametri di una distribuzione gaussiana per ciascuna classe. I parametri delle distribuzioni vengono utilizzati per calcolare i confini, che possono essere funzioni lineari o quadratiche. Tali confini vengono usati per determinare la classe dei nuovi dati.SOLUZIONE MIGLIORE...
- Quando occorre un modello semplice e facile da interpretare
- Quando l’utilizzo di memoria durante l’addestramento è un aspetto importante
- Quando occorre un modello facile da prevedere
Albero di decisione
COME FUNZIONA
Un albero di decisione consente di prevedere risposte ai dati seguendo le decisioni nell’albero dalla radice (inizio) fino a un nodo foglia. Gli alberi sono costituiti da condizioni di diramazione in cui il valore di un predittore viene confrontato con un peso addestrato. Il numero di ramificazioni e i valori dei pesi sono determinati nel processo di addestramento. Una modifica aggiuntiva, o pruning, può essere utilizzata per semplificare il modello.SOLUZIONE MIGLIORE...
- Quando occorre un algoritmo facile da interpretare e veloce da adattare
- Per ridurre al minimo l’utilizzo di memoria
- Quando non occorre un’elevata precisione delle previsioni
Alberi di decisione con bagging e boosting
COME FUNZIONA
In questi metodi d’insieme, diversi alberi decisionali “più deboli” vengono uniti per creare un insieme “più forte”.Un albero di decisione con bagging è costituito da alberi che vengono addestrati in modo indipendente su dati aggregati tramite bootstrap dai dati di input.
Il boosting prevede la creazione di un learner forte aggiungendo iterativamente learner “deboli” e regolando il peso di ciascun learner debole per focalizzarsi su esempi di classificazione errata.
SOLUZIONE MIGLIORE...
- Quando i predittori sono categorici (discreti) o si comportano in modo non lineare
- Quando il tempo necessario per l’addestramento di un modello non è un fattore determinante
Regressione logistica
COME FUNZIONA
Si adatta a un modello in grado di prevedere la probabilità con cui una risposta binaria appartiene a una classe o all’altra. Per la sua semplicità, in genere la regressione logistica viene utilizzata come punto di partenza per i problemi di classificazione binaria.SOLUZIONE MIGLIORE...
- Quando i dati possono essere separati chiaramente da un unico confine lineare
- Come base per valutare metodi di classificazione più complessi
k-Nearest Neighbor (kNN)
COME FUNZIONA
Il kNN categorizza gli oggetti in base alle classi degli elementi più vicini (nearest neighbor) nel set di dati. Le previsioni con kNN presuppongono che gli oggetti vicini siano simili tra loro. Per trovare il nearest neighbor vengono utilizzate metriche di distanza, come la distanza euclidea, city-block, del coseno e di Chebyshev.SOLUZIONE MIGLIORE...
- Quando si ha bisogno di un algoritmo semplice per determinare regole di apprendimento di riferimento
- Quando l’utilizzo della memoria del modello addestrato non è fondamentale
- Quando la velocità di previsione del modello addestrato non è fondamentale
Algoritmi di regressione comuni
Modello lineare generalizzato
COME FUNZIONA
Un modello lineare generalizzato è un caso speciale di modello non lineare che usa metodi lineari. Consiste nel fitting di una combinazione lineare degli input in una funzione non lineare (funzione di collegamento) degli output.SOLUZIONE MIGLIORE...
- Quando le variabili di risposta hanno distribuzioni non normali, come una variabile di risposta che ci si aspetta sia sempre positiva
Albero di regressione
COME FUNZIONA
Gli alberi di decisione per la regressione sono simili agli alberi di decisione per la classificazione, ma vengono modificati in modo da poter prevedere risposta continue.SOLUZIONE MIGLIORE...
- Quando i predittori sono categorici (discreti) o si comportano in modo non lineare
Regressione lineare
COME FUNZIONA
La regressione lineare è una tecnica di modellazione statistica usata per descrivere una variabile di risposta continua come una funzione lineare di una o più variabili di predittori. Poiché i modelli di regressione lineare sono semplici da interpretare e facili da addestrare, spesso sono i primi modelli a essere adattati a un nuovo set di dati.SOLUZIONE MIGLIORE...
- Quando occorre un algoritmo facile da interpretare e veloce da adattare
- Come base per valutare altri modelli di regressione, più complessi
Regressione non lineare
COME FUNZIONA
La regressione non lineare è una tecnica di modellazione statistica che aiuta a descrivere le relazioni non lineari nei dati sperimentali. In genere si presuppone che i modelli di regressione non lineare siano parametrici e il modello è descritto come un’equazione non lineare.Per “non lineare” si intende una funzione di fitting che è una funzione non lineare dei parametri. Ad esempio, se i parametri di fitting sono b0, b1 e b2: l’equazione y = b0+b1x+b2x2 è una funzione lineare dei parametri di fitting, mentre y = (b0xb1)/(x+b2) è una funzione non lineare dei parametri di fitting.
SOLUZIONE MIGLIORE...
- Quando i dati hanno forti tendenze non lineari e non possono essere facilmente trasformati in uno spazio lineare
- Per il fitting sui dati di modelli personalizzati
Modello di regressione del processo gaussiano
COME FUNZIONA
I modelli di regressione del processo gaussiano (GPR) sono modelli non parametrici che vengono utilizzati per prevedere il valore di una variabile di risposta continua. Sono ampiamente utilizzati nel campo dell’analisi spaziale per l’interpolazione in presenza di incertezza. Il metodo GPR è chiamato anche Kriging.SOLUZIONE MIGLIORE...
- Per l’interpolazione di dati spaziali, come i dati idrogeologici per la distribuzione dell’acqua del sottosuolo
- Come modello surrogato per facilitare l’ottimizzazione di progetti complessi, come i motori per il settore automotive
Regressione SVM
COME FUNZIONA
Gli algoritmi di regressione SVM funzionano come gli algoritmi di classificazione SVM, ma vengono modificati in modo da poter prevedere una risposta continua. Invece di trovare un iperpiano che separa i dati, gli algoritmi di regressione SVM trovano un modello che devia dai dati misurati di un valore non maggiore di una piccola quantità, con valori parametrici quanto più piccoli possibile (per minimizzare la sensibilità all’errore).SOLUZIONE MIGLIORE...
- Per dati di grandi dimensioni (dove saranno presenti numerose variabili di predittori)
Modello lineare generalizzato
COME FUNZIONA
Un modello lineare generalizzato è un caso speciale di modello non lineare che usa metodi lineari. Consiste nel fitting di una combinazione lineare degli input in una funzione non lineare (funzione di collegamento) degli output.SOLUZIONE MIGLIORE...
- Quando le variabili di risposta hanno distribuzioni non normali, come una variabile di risposta che ci si aspetta sia sempre positiva
Albero di regressione
COME FUNZIONA
Gli alberi di decisione per la regressione sono simili agli alberi di decisione per la classificazione, ma vengono modificati in modo da poter prevedere risposta continue.SOLUZIONE MIGLIORE...
- Quando i predittori sono categorici (discreti) o si comportano in modo non lineare
Regressione lineare
COME FUNZIONA
La regressione lineare è una tecnica di modellazione statistica usata per descrivere una variabile di risposta continua come una funzione lineare di una o più variabili di predittori. Poiché i modelli di regressione lineare sono semplici da interpretare e facili da addestrare, spesso sono i primi modelli a essere adattati a un nuovo set di dati.SOLUZIONE MIGLIORE...
- Quando occorre un algoritmo facile da interpretare e veloce da adattare
- Come base per valutare altri modelli di regressione, più complessi
Regressione non lineare
COME FUNZIONA
La regressione non lineare è una tecnica di modellazione statistica che aiuta a descrivere le relazioni non lineari nei dati sperimentali. In genere si presuppone che i modelli di regressione non lineare siano parametrici e il modello è descritto come un’equazione non lineare.Per “non lineare” si intende una funzione di fitting che è una funzione non lineare dei parametri. Ad esempio, se i parametri di fitting sono b0, b1 e b2: l’equazione y = b0+b1x+b2x2 è una funzione lineare dei parametri di fitting, mentre y = (b0xb1)/(x+b2) è una funzione non lineare dei parametri di fitting.
SOLUZIONE MIGLIORE...
- Quando i dati hanno forti tendenze non lineari e non possono essere facilmente trasformati in uno spazio lineare
- Per il fitting sui dati di modelli personalizzati
Passaggi successivi consigliati
Seleziona un sito web
Seleziona un sito web per visualizzare contenuto tradotto dove disponibile e vedere eventi e offerte locali. In base alla tua area geografica, ti consigliamo di selezionare: United States.
Puoi anche selezionare un sito web dal seguente elenco:
Come ottenere le migliori prestazioni del sito
Per ottenere le migliori prestazioni del sito, seleziona il sito cinese (in cinese o in inglese). I siti MathWorks per gli altri paesi non sono ottimizzati per essere visitati dalla tua area geografica.
Americhe
- América Latina (Español)
- Canada (English)
- United States (English)
Europa
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)