Text Analytics Toolbox

 

Text Analytics Toolbox

Analizzare e modellare dati di testo

 

Text Analytics Toolbox™ fornisce algoritmi e visualizzazioni per la pre-elaborazione, l’analisi e la modellazione di dati di testo. I modelli creati con il toolbox possono essere utilizzati in applicazioni quali sentiment analysis, manutenzione predittiva e topic modeling.

Text Analytics Toolbox include strumenti per l’elaborazione di testi non formattati estratti da registri delle apparecchiature, feed di notizie, sondaggi, report di operatori e social media. Puoi estrarre testo dai formati di file più comuni, pre-elaborare testo non formattato, estrarre singole parole, convertire testo in rappresentazioni numeriche e sviluppare modelli statistici.

Utilizzando le tecniche di machine learning quali LSA, LDA e word embedding, puoi trovare cluster e creare feature da set di dati di testo di grandi dimensioni. Le feature create con Text Analytics Toolbox possono essere combinate con le feature di altre fonti di dati per sviluppare modelli di machine learning che sfruttano dati di testo, numerici e altri tipi di dati.

 

Importare e visualizzare dati di testo

Estrai dati di testo da fonti quali social media, feed di notizie, registri di apparecchiature, report e sondaggi.

Estrarre dati di testo

Importa dati di testo in MATLAB® da file singoli o da grandi serie di file, inclusi file PDF, HTML, Microsoft® Word® e Excel®.

Estrazione di testo da una serie di documenti Microsoft Word.

Visualizzare il testo

Esplora visivamente i set di dati di testo tramite word cloud e grafici a dispersione di testo.

Grafico a dispersione di testo che mostra la frequenza relativa delle parole sulla base del formato e del colore del font.

Supporto linguistico

Text Analytics Toolbox fornisce funzionalità di pre-elaborazione specifiche per le lingue inglese e giapponese. La maggior parte delle funzionalità è compatibile anche con testo in altre lingue.

Importare, preparare e analizzare testi in giapponese.

Pre-elaborare dati di testo

Estrai le parole significative da testo non formattato.

Pulire i dati di testo

Applica i filtri avanzati per rimuovere il contenuto non rilevante come URL, tag HTML e punteggiatura.

Semplificare il testo non formattato (sinistra) per lavorare con le parole più significative (destra).

Filtrare le stop word e normalizzare le parole alla forma radice

Dai priorità ai dati di testo significativi nella tua analisi filtrando le parole comuni, quelle che compaiono troppo frequentemente o raramente, quelle molto lunghe o molto brevi. Riduci il lessico e concentrati sul senso più generale o sul sentiment di un documento, riducendo le parole alla loro forma radice o convertendole in lemmi.

Rimozione delle stop word come “a” e “di” dai documenti.

Identificare token, frasi e parti del discorso

Dividi automaticamente il testo non formattato in una serie di parole utilizzando l’algoritmo di tokenizzazione. Aggiungi i limiti delle frasi, i dettagli grammaticali e altre informazioni rilevanti per il contesto.

Grafici finanziari e indicatori tecnici.

Convertire il testo in formati numerici

Converti i dati di testo in formato numerico per utilizzarli con machine learning e deep learning.

Conteggio di parole e n-grammi

Calcola le statistiche di frequenza delle parole per rappresentare numericamente i dati di testo.

Identificare e visualizzare le parole che ricorrono più frequentemente in un modello.

Word embedding e codifica

Addestra modelli di word embedding come i modelli word2vec, CBOW (continuous bag-of-words) e skip gram. Importa modelli pre-addestrati tra cui fastText e GloVe.

Visualizzare i cluster in un grafico a dispersione di testo tramite word embedding. 

Machine learning con i dati di testo

Esegui il topic modeling, la classificazione e la riduzione delle dimensionalità con algoritmi di machine learning quali LDA (Latent Dirichlet Allocation) e analisi semantica latente (LSA).

Topic modeling

Scopri e visualizza pattern, trend e relazioni complesse sottostanti in grandi serie di dati di testo.

Identificare argomenti nei dati di un report su un temporale.

Deep learning con i dati di testo

Esegui la sentiment analysis e la classificazione con le reti di deep learning come le reti LSTM (Long Short Term Memory).

Sentiment analysis

Identifica le opinioni espresse nei dati di testo per categorizzare le affermazioni come positive, neutre o negative. Costruisci modelli in grado di prevedere il sentiment in tempo reale.

Identificare parole che prevedono un sentiment positivo e negativo. 

Classificazione del testo

Classifica le descrizioni del testo utilizzando word embedding in grado di identificare le categorie di testo tramite il deep learning.

Addestramento di una rete neurale profonda per classificare i dati di testo.

Generazione di testo utilizzando Orgoglio e pregiudizio di Jane Austen e una rete LSTM di deep learning. 

Funzionalità recenti

Supporto della lingua tedesca

Esegui l’analisi di testo in lingua tedesca mediante tokenizzazione, rimozione di stop word, stemming e tagging grammaticale.

Edit distance

Individua la somiglianza tra stringhe e documenti utilizzando la distanza di Levensthein e altre misure della distanza.

Riconoscimento di entità nominate

Rileva luoghi, organizzazioni, nomi di persone e altre entità nominate nel testo.

Tokenizzazione e pre-elaborazione

Specifica e rileva pattern di token personalizzati e sostituisci parole o frasi nei documenti tokenizzati.

Esempi di deep learning

Scopri come classificare dati testuali usando le reti convoluzionali (richiede Deep Learning Toolbox)

Vedi le note di rilascio per ulteriori informazioni su queste caratteristiche e sulle funzioni corrispondenti.

Sentiment Analysis con deep learning

Analizza il sentiment dei dati live di Twitter per comprendere come viene percepito un dato termine.

Hai domande?

Contatta Sohini Sarkar, esperta tecnica di Text Analytics Toolbox

Prova gratuita

30 giorni di esplorazione a tua disposizione.

Scarica ora

Pronto per acquistare?

Richiedi una quotazione ed esplora i prodotti correlati.

Sei uno Studente?

Acquista MATLAB e Simulink per studenti.

Scopri di più