Capitolo 1

Introduzione al Machine Learning


Più dati, più domande, risposte migliori

Gli algoritmi di Machine Learning individuano dei pattern naturali nei dati che generano informazioni e aiutano a prendere decisioni più oculate e a fare previsioni migliori. Vengono utilizzati ogni giorno per prendere decisioni importanti nel campo delle diagnosi mediche, del trading azionario, della previsione del carico energetico e molto altro ancora. Un sito multimediale si affida al Machine Learning per passare al setaccio milioni di opzioni al fine di consigliare canzoni o film. Gli esercenti lo usano per ottenere informazioni sul comportamento di acquisto dei propri clienti.

Automotive e produzione, per la manutenzione predittiva

Finanza computazionale, per la valutazione del credito e il trading algoritmico

Elaborazione di immagini e Computer Vision per il riconoscimento dei volti e il rilevamento oggetti

Biologia computazionale, per il rilevamento dei tumori, la scoperta di nuovi farmaci e il sequenziamento del DNA

Produzione di energia, per la previsione dei prezzi e del carico

Elaborazione del linguaggio naturale

Applicazioni del mondo reale:

Il video dura 3:51

Come funziona il Machine Learning

Il Machine Learning si serve di due tipi di tecniche: l’apprendimento con supervisione, che addestra un modello sulla base di dati di input e output noti in modo tale da prevedere gli output futuri, e l’apprendimento senza supervisione, che trova pattern nascosti o strutture intrinseche nei dati di input.

Le tecniche di classificazione prevedono risposte discrete, ad esempio se un’email è autentica o è spam oppure se un tumore è benigno o maligno. I modelli di classificazione classificano i dati di input in categorie. Tra le applicazioni tipiche compaiono la diagnostica per immagini, il riconoscimento vocale e la valutazione del credito.

Le tecniche di regressione prevedono risposte continue, ad esempio cambi di temperatura o fluttuazioni della domanda di energia elettrica. Tra le applicazioni tipiche compaiono la previsione del consumo elettrico e il trading algoritmico.

L’apprendimento senza supervisione individua pattern nascosti o strutture intrinseche nei dati. Viene utilizzato per trarre inferenze dai set di dati costituiti da dati di input senza risposte etichettate.

Il clustering è la tecnica di apprendimento senza supervisione più popolare. Viene utilizzato per l’analisi esplorativa dei dati con lo scopo di trovare pattern nascosti o raggruppamenti nei dati.

Le applicazioni del clustering comprendono le analisi delle sequenze di geni, ricerche di mercato e il riconoscimento oggetti.

Come si fa a scegliere l’algoritmo da utilizzare?

Scegliere l’algoritmo più giusto da usare può sembrare arduo in quanto esistono decine di algoritmi di Machine Learning con e senza supervisione, ciascuno dei quali adotta un approccio diverso all’apprendimento. Non esiste un metodo migliore o una soluzione adatta per tutte le occasioni. In parte, per trovare l’algoritmo giusto non si deve fare altro che procedere per tentativi ed errori. Neanche i data scientist più esperti sono in grado di capire se un algoritmo funzionerà senza prima provarlo. La selezione dell’algoritmo, però, dipende anche dalle dimensioni e dalla tipologia di dati con cui si lavora, dalle informazioni che si desidera ottenere da tali dati e dall’uso che verrà fatto delle informazioni ottenute.

  • Macchine a vettori di supporto
  • Analisi discriminante
  • Naive Bayes
  • Nearest Neighbor

  • Regressione lineare, GLM
  • SVR, GPR
  • Metodi d’insieme
  • Alberi di decisione
  • Reti neurali

  • K-Means, K-Medoids
  • Fuzzy C-Means
  • Gerarchico
  • Mistura gaussiana
  • Reti neurali
  • Modello di Markov di tipo hidden

Quando bisognerebbe usare il Machine Learning?

Il Machine Learning può essere usato quando si ha a che fare con un problema o un’attività complessa che coinvolge una grande quantità di dati e molte variabili, ma nessuna formula o equazione esistente. Ad esempio, il Machine Learning è un’ottima soluzione per gestire soluzioni di questo tipo.

Le equazioni e le regole scritte a mano sono troppo complesse, come nel caso del riconoscimento dei volti e del parlato.

La natura dei dati cambia di continuo e il programma deve essere adattato, come nel trading automatico, la previsione del fabbisogno energetico e la previsione delle tendenze di acquisto.

Le regole di un’attività sono in costante cambiamento, come nel rilevamento delle frodi dai record delle transazioni.