Machine Learning con MATLAB

Capitolo 3

Applicazione dell’apprendimento senza supervisione

Quando prendere in considerazione l’apprendimento senza supervisione

L’apprendimento senza supervisione è utile quando si devono esplorare i propri dati ma non si ha ancora un obiettivo specifico e non si è certi di quali informazioni siano contenute nei dati. È anche un buon modo per ridurre le dimensioni dei dati.

Molte delle tecniche di apprendimento senza supervisione sono una forma di analisi dei cluster, come abbiamo visto nel Capitolo 1.

Nell’analisi dei cluster, i dati vengono suddivisi in gruppi in base alla misurazione di un grado di somiglianza o di una caratteristica condivisa. I cluster sono formati in modo tale che gli oggetti contenuti nello stesso cluster siano molto simili e che gli oggetti in cluster diversi siano molto distinti.

Gli algoritmi di clustering si suddividono in due grandi gruppi:

Clustering esclusivo (hard clustering), in cui i punti di dati appartengono a un solo cluster.
Clustering non esclusivo (soft clustering), in cui ogni elemento può appartenere a più di un cluster. È possibile utilizzare le tecniche di clustering esclusivo o non esclusivo se si conoscono già i possibili raggruppamenti di dati.

Rappresentazione grafica di un modello di cluster con la tecnica gaussiana — Modello di mistura gaussiana usato per separare i dati in due cluster.

Se non sai ancora come potrebbero essere raggruppati i dati:

Usa le mappe di feature auto-organizzanti o il clustering gerarchico per ricercare possibili strutture nei dati.
Usa la valutazione dei cluster per trovare il numero “migliore” di gruppi per un dato algoritmo di clustering.