Capitolo 1
Introduzione al Machine Learning
Più dati, più domande, risposte migliori
Gli algoritmi di Machine Learning individuano dei pattern naturali nei dati che generano informazioni e aiutano a prendere decisioni più oculate e a fare previsioni migliori. Vengono utilizzati ogni giorno per prendere decisioni importanti nel campo delle diagnosi mediche, del trading azionario, della previsione del carico energetico e molto altro ancora. Un sito multimediale si affida al Machine Learning per passare al setaccio milioni di opzioni al fine di consigliare canzoni o film. Gli esercenti lo usano per ottenere informazioni sul comportamento di acquisto dei propri clienti.
Automotive e produzione, per la manutenzione predittiva
Finanza computazionale, per la valutazione del credito e il trading algoritmico
Elaborazione di immagini e Computer Vision per il riconoscimento dei volti e il rilevamento oggetti
Biologia computazionale, per il rilevamento dei tumori, la scoperta di nuovi farmaci e il sequenziamento del DNA
Produzione di energia, per la previsione dei prezzi e del carico
Elaborazione del linguaggio naturale
Applicazioni del mondo reale:
Come funziona il Machine Learning
Il Machine Learning si serve di due tipi di tecniche: l’apprendimento con supervisione, che addestra un modello sulla base di dati di input e output noti in modo tale da prevedere gli output futuri, e l’apprendimento senza supervisione, che trova pattern nascosti o strutture intrinseche nei dati di input.
Le tecniche di classificazione prevedono risposte discrete, ad esempio se un’email è autentica o è spam oppure se un tumore è benigno o maligno. I modelli di classificazione classificano i dati di input in categorie. Tra le applicazioni tipiche compaiono la diagnostica per immagini, il riconoscimento vocale e la valutazione del credito.
Le tecniche di regressione prevedono risposte continue, ad esempio cambi di temperatura o fluttuazioni della domanda di energia elettrica. Tra le applicazioni tipiche compaiono la previsione del consumo elettrico e il trading algoritmico.
L’apprendimento senza supervisione individua pattern nascosti o strutture intrinseche nei dati. Viene utilizzato per trarre inferenze dai set di dati costituiti da dati di input senza risposte etichettate.
Il clustering è la tecnica di apprendimento senza supervisione più popolare. Viene utilizzato per l’analisi esplorativa dei dati con lo scopo di trovare pattern nascosti o raggruppamenti nei dati.
Le applicazioni del clustering comprendono le analisi delle sequenze di geni, ricerche di mercato e il riconoscimento oggetti.
Come si fa a scegliere l’algoritmo da utilizzare?
Scegliere l’algoritmo più giusto da usare può sembrare arduo in quanto esistono decine di algoritmi di Machine Learning con e senza supervisione, ciascuno dei quali adotta un approccio diverso all’apprendimento. Non esiste un metodo migliore o una soluzione adatta per tutte le occasioni. In parte, per trovare l’algoritmo giusto non si deve fare altro che procedere per tentativi ed errori. Neanche i data scientist più esperti sono in grado di capire se un algoritmo funzionerà senza prima provarlo. La selezione dell’algoritmo, però, dipende anche dalle dimensioni e dalla tipologia di dati con cui si lavora, dalle informazioni che si desidera ottenere da tali dati e dall’uso che verrà fatto delle informazioni ottenute.
Quando bisognerebbe usare il Machine Learning?
Il Machine Learning può essere usato quando si ha a che fare con un problema o un’attività complessa che coinvolge una grande quantità di dati e molte variabili, ma nessuna formula o equazione esistente. Ad esempio, il Machine Learning è un’ottima soluzione per gestire soluzioni di questo tipo.
Le equazioni e le regole scritte a mano sono troppo complesse, come nel caso del riconoscimento dei volti e del parlato.
La natura dei dati cambia di continuo e il programma deve essere adattato, come nel trading automatico, la previsione del fabbisogno energetico e la previsione delle tendenze di acquisto.
Le regole di un’attività sono in costante cambiamento, come nel rilevamento delle frodi dai record delle transazioni.