Capitolo 2

Guida introduttiva al Machine Learning


Raramente si tratta di un percorso lineare

Difficilmente il Machine Learning è un processo lineare dall’inizio alla fine. Ti troverai a ripetere costantemente gli stessi passaggi e a tentare idee e approcci differenti. Questa sezione descrive un workflow sistematico di Machine Learning, mettendo in luce alcuni dei punti decisionali più importanti.

I set di dati del mondo reale possono essere disordinati, incompleti e presentarsi in formati diversi. I dati a disposizione possono essere semplici dati numerici. Talvolta, però, vengono combinati tipi di dati diversi, come i segnali provenienti dai sensori, dati testuali e immagini in streaming provenienti da videocamere.

Ad esempio, per selezionare le feature per addestrare un algoritmo di rilevamento oggetti occorrono conoscenze specifiche nell’ambito dell’elaborazione delle immagini. Tipi di dati diversi richiedono approcci diversi alla pre-elaborazione.

Per scegliere il modello giusto bisogna saper trovare il giusto equilibrio. I modelli molto flessibili tendono a portare all’overfitting dei dati, per via della modellazione di variazioni minori che potrebbero rappresentare rumore. D’altra parte, i modelli semplici potrebbero presupporre troppo. Bisogna sempre trovare il giusto compromesso tra velocità, precisione e complessità del modello.

Tutti i workflow di Machine Learning iniziano con tre domande:

  • Con quali tipi di dati si sta lavorando?
  • Quali informazioni si vogliono ottenere dai dati?
  • Dove e come dovranno essere applicate le informazioni ottenute?

Le risposte a queste domande saranno utili a scegliere tra l’apprendimento con o senza supervisione.

Scegli l’apprendimento con supervisione se hai bisogno di addestrare un modello per fare una previsione, ad esempio sul valore futuro di una variabile continua, come una temperatura o un prezzo azionario, oppure una classificazione, ad esempio per identificare le case automobilistiche dalle riprese video di una webcam.

Scegli l’apprendimento senza supervisione se devi esplorare i tuoi dati e desideri addestrare un modello al fine di individuare una buona rappresentazione interna, come la suddivisione di dati in cluster.

Panoramica del workflow

Scarica il PDF completo per analizzare ciascuna fase in maggiore dettaglio, usando un’app per il monitoraggio dello stato di salute a scopo illustrativo. L’intero workflow sarà completato in MATLAB®.

  1. ACCESSO e caricamento dei dati
  2. PRE-ELABORAZIONE dei dati
  3. DERIVAZIONE delle feature tramite i dati pre-elaborati
  4. ADDESTRAMENTO dei modelli tramite le feature derivate al passaggio 3
  5. ITERAZIONE fino a trovare il modello migliore
  6. INTEGRAZIONE del modello addestrato meglio in un sistema di produzione