Stemming

Che cos’è lo stemming?

Il termine stemming indica una tecnica di normalizzazione del testo nell’elaborazione del linguaggio naturale che consiste nel ridurre le parole alla loro forma radice. Lo stemming viene eseguito principalmente rimuovendo gli affissi delle parole, operazione da cui si potrebbe ottenere una parola del dizionario non valida. Per esempio, eseguendo lo stemming, le parole “requiring”, “required” e “requirement” si ridurranno a “require”.

Lo stemming viene comunemente utilizzato per:

  • Recupero di informazioni, in cui le parole derivate vengono utilizzate come sinonimi per espandere i criteri di ricerca
  • Applicazioni ingegneristiche per ridurre la dimensionalità, in cui lo stemming si traduce in un minor numero di parole da tracciare e utilizzare in un modello con algoritmi di Machine Learning

L’algoritmo di stemming di Porter è uno degli approcci di stemming più diffusi per la lingua inglese e si basa su semplici regole euristiche. Questo approccio di stemming è rapido ma potrebbe non essere sempre accurato. Negli anni successivi furono proposti molti altri algoritmi, ma l’algoritmo di stemming di Porter è tuttora il più diffuso grazie alla sua velocità e semplicità.

Un approccio correlato allo stemming, ma più sofisticato, è la lemmatizzazione. A differenza dello stemming:

  • La lemmatizzazione utilizza il vocabolario e l’analisi morfologica, mentre lo stemming utilizza semplici regole euristiche
  • La lemmatizzazione restituisce le forme del dizionario delle parole, mentre dallo stemming si potrebbero ottenere parole non valide

Di seguito sono riportate le differenze tra lemmatizzazione e stemming.

Parola Lemmatizzazione Stemming
Requiring Require Requir
Required Require Requir
Requirement Requirement Requir

Per ulteriori informazioni sullo stemming e sulla creazione di modelli con dati di testo, vedi Text Analytics Toolbox™.


Vedere anche: natural language processing, sentiment analysis, word2vec, n-gram, text mining with MATLAB, data science, deep learning, Deep Learning Toolbox™, Statistics and Machine Learning Toolbox™