Text Analytics Toolbox fornisce algoritmi e visualizzazioni per la pre-elaborazione, l’analisi e la modellazione di dati di testo. I modelli creati con il toolbox possono essere utilizzati in applicazioni quali la sentiment analysis, la manutenzione predittiva e il topic modeling.
Text Analytics Toolbox include strumenti per l’elaborazione di testi non elaborati estratti da registri delle apparecchiature, feed di notizie, sondaggi, report di operatori e social media. È possibile estrarre testo dai formati di file più diffusi, pre-elaborare testo non elaborato, estrarre singole parole, convertire testo in rappresentazioni numeriche e sviluppare modelli statistici.
Utilizzando le tecniche di machine learning quali LSA, LDA e Word Embedding, è possibile trovare cluster e creare feature da set di dati di testo di grandi dimensioni. Le feature create con Text Analytics Toolbox possono essere combinate con le feature di altre fonti di dati per sviluppare modelli di machine learning che sfruttano dati di testo, numerici e di altro tipo.
Inizia ora:
Estrazione di dati di testo
Importa dati di testo in MATLAB da file singoli o da grandi serie di file, inclusi file PDF, HTML, Microsoft® Word® e Excel®.
Visualizzazione del testo
Esplora visivamente i set di dati di testo tramite nuvole di parole e grafici a dispersione di testo.
Supporto linguistico
Text Analytics Toolbox fornisce funzionalità di pre-elaborazione specifiche per la lingua inglese, giapponese, tedesca e coreana. La maggior parte delle funzionalità è compatibile anche con testo in altre lingue.
Pulizia dei dati di testo
Applica filtri di alto livello per rimuovere il contenuto non rilevante come URL, tag HTML, punteggiatura e per correggere l’ortografia.
Filtraggio delle stop word e normalizzazione delle parole alla forma radice
Dai priorità ai dati di testo significativi nella tua analisi filtrando le parole comuni, quelle che compaiono troppo frequentemente o raramente, quelle molto lunghe o molto brevi. Limita il lessico e concentrati sul senso più generale o sul sentiment di un documento, eseguendo lo stemming delle parole alla loro forma radice o convertendole in lemmi.
Estrazione delle feature linguistiche
Dividi automaticamente il testo non elaborato in una serie di parole utilizzando un algoritmo di tokenizzazione. Aggiungi i limiti delle frasi, le varie parti del discorso e altre informazioni rilevanti per il contesto.
Conteggio di parole e n-grammi
Calcola le statistiche di frequenza delle parole per rappresentare numericamente i dati di testo.
Word Embedding e codifica
Addestra modelli di Word Embedding come i modelli word2vec, CBOW (continuous bag-of-words) e skip gram. Importa modelli pre-addestrati tra cui fastText e GloVe.
Topic modeling
Scopri e visualizza pattern, trend e relazioni complesse sottostanti in grandi serie di dati di testo usando algoritmi di machine learning come l’allocazione Dirichlet latente (LDA) e l’analisi semantica latente (LSA).
Sintesi di documenti ed estrazione di parole chiave
Estrai automaticamente una sintesi e le parole chiave rilevanti da uno o più documenti e valuta i documenti in termini di importanza e somiglianza.
Sentiment analysis
Identifica gli atteggiamenti e le opinioni espressi nei dati di testo per classificare le affermazioni come positive, neutre o negative. Costruisci modelli che possono prevedere il sentiment in tempo reale.
Deep learning con dati di testo
Esegui sentiment analysis, classificazione, sintesi e generazione di testo utilizzando algoritmi di Deep Learning.
Modelli di trasformatori
Sfrutta i modelli di trasformatori come BERT, FinBERT, e GPT-2 per eseguire il transfer learning con i dati di testo per attività come sentiment analysis, classificazione e sintesi.
Classificazione del testo
Classifica le descrizioni del testo utilizzando Word Embedding in grado di identificare le categorie di testo tramite il deep learning.
Generazione di testo
Utilizza il deep learning per generare nuovi testi basati sui testi osservati.