La segmentazione semantica è un algoritmo di deep learning che associa un'etichetta o una categoria a ogni pixel di un'immagine. Viene utilizzata per riconoscere una serie di pixel che formano categorie distinte. Ad esempio, un veicolo autonomo deve identificare veicoli, pedoni, segnali stradali, marciapiedi e altri elementi della strada.
La segmentazione semantica viene utilizzata in numerose applicazioni come la guida autonoma, l'imaging medicale e l'ispezione industriale.
Un semplice esempio di segmentazione semantica consiste nella separazione delle immagini in due classi. Ad esempio, nella Figura 1 vediamo un'immagine che mostra una persona in spiaggia e, a fianco, una versione che mostra i pixel dell'immagine segmentati in due classi separate: persona e sfondo.
La segmentazione semantica non è limitata a due categorie. È possibile modificare il numero di categorie per la classificazione del contenuto dell'immagine. Questa stessa immagine potrebbe essere segmentata in quattro classi: persona, cielo, acqua e sfondo.
In che modo la segmentazione semantica differisce dalla rilevazione di oggetti?
La segmentazione semantica può essere un'alternativa utile alla rilevazione di oggetti poiché consente all'oggetto di interesse di coprire più aree dell'immagine a livello di pixel. Questa tecnica rileva in modo pulito gli oggetti di forma irregolare, a differenza della rilevazione di oggetti, in cui gli oggetti devono rientrare in un rettangolo di delimitazione (Figura 2).
Come viene utilizzata la segmentazione semantica?
Poiché la segmentazione semantica etichetta i pixel di un'immagine è più precisa rispetto ad altre forme di rilevazione di oggetti. Per questo motivo, la segmentazione semantica è utile per applicazioni in una varietà di settori che richiedono mappe immagine precise, come ad esempio:
- Guida autonoma: per identificare un percorso percorribile dalle auto separando la strada da ostacoli come pedoni, marciapiedi, pali e altre auto
- Ispezione industriale: per rilevare difetti nei materiali, come ad esempio nell'ispezione dei wafer
- Immagini satellitari: per identificare montagne, fiumi, deserti e altri tipi di terreno
- Imaging medicale: per analizzare e rilevare anomalie cancerose nelle cellule
- Visione robotica: per identificare e muoversi tra oggetti e terreni
Il processo di addestramento di una rete di segmentazione semantica per classificare le immagini prevede i seguenti passaggi:
- Analizzare una raccolta di immagini con etichette pixel
- Creare una rete di segmentazione semantica
- Addestrare la rete per classificare le immagini in categorie di pixel
- Valutare la precisione della rete
Esempio: Applicazione per la guida autonoma
La sequenza nella Figura 4 mostra un esempio reale di segmentazione semantica utilizzata per la guida autonoma. Le immagini della strada vengono automaticamente segmentate rispetto agli altri veicoli. La prossima sezione illustra come vengono create queste reti.
Comprendere l'architettura
Un approccio comune alla segmentazione semantica consiste nel creare una SegNet, basata su un'architettura di rete neurale convoluzionale (CNN). Nella Figura 5 è riportata una tipica architettura CNN.
Questa CNN classifica l'intera immagine in una classe tra varie categorie predefinite.
Per classificare a livello di pixel invece che dell'intera immagine, è possibile aggiungere un'implementazione inversa della CNN. I processi di sovracampionamento e sottocampionamento vengono eseguiti lo stesso numero di volte per garantire che l'immagine finale abbia le stesse dimensioni dell'immagine di input. Infine, viene utilizzato un layer di output per la classificazione dei pixel, che associa ciascun pixel a una determinata classe. In questo modo si forma un'architettura di codifica/decodifica che consente la segmentazione semantica.
In MATLAB, il flusso di lavoro per eseguire la segmentazione semantica prevede questi cinque passaggi:
- Etichettare i dati o ottenere dati etichettati
- Creare un datastore per le immagini originali e le immagini etichettate
- Eseguire la partizione dei datastore
- Importare una CNN e modificarla come SegNet
- Addestrare e valutare la rete
PASSAGGIO 1: Etichettare i dati o ottenere dati etichettati
I modelli di deep learning si basano su grandi quantità di dati e la segmentazione semantica non fa eccezione. Una possibilità consiste nel trovare dati etichettati su internet. Se si dispone del proprio set di dati, è possibile utilizzare l'app Image Labeler in MATLAB. Il set di dati può essere usato per addestrare una SegNet.
Per saperne di più
PASSAGGIO 2: Creare un datastore per le immagini originali e le immagini etichettate
Quando si lavora con grandi quantità di dati, spesso non è possibile caricare tutte le informazioni in memoria. Per gestire set di dati di grandi dimensioni, è possibile utilizzare un datastore. Un datastore contiene la posizione dei file a cui si desidera accedere e consente di leggerli in memoria solo quando è necessario lavorare su quei file.
Per creare una SegNet, occorrono due datastore:
- ImageDatastore, che contiene le immagini originali
- PixelLabelDatastore, che contiene le immagini etichettate
PASSAGGIO 3: Eseguire la partizione dei datastore
Quando si crea una SegNet, è necessario suddividere il datastore in due parti:
- Il set di addestramento, utilizzato per addestrare la SegNet
- Il set di test, utilizzato per valutare l'accuratezza della rete
PASSAGGIO 4: Importare una CNN e modificarla come SegNet.
Caricando una rete pre-addestrata, come VGG16, e utilizzando il comando SegNetLayers, è possibile creare l’architettura di codifica/decodifica necessaria per l'etichettatura a livello di pixel.
PASSAGGIO 5: Addestrare e valutare la rete
Nella fase finale, si impostano gli iperparametri per la rete e si addestra la rete.
Come saperne di più sulla segmentazione semantica
I prodotti che supportano l'uso della segmentazione semantica per l'analisi di immagini includono MATLAB Computer Vision Toolbox per l'etichettatura dei pixel e Deep Learning Toolbox per la creazione e l'addestramento della rete.
L'addestramento e la previsione sono supportate su una GPU CUDA® con capacità di calcolo versione 3.0 o successive. Si consiglia l'uso di una GPU, che richiede Parallel Computing Toolbox.
Video
Esempi e consigli pratici
Riferimenti software
- Nozioni base della segmentazione semantica – Documentazione
- Reti neurali convoluzionali – Documentazione
- App Image Labeler – Documentazione