Prodotti e servizi

IA pronta per l’uso per applicazioni audio e vocali

Elaborazione e analisi di segnali audio e vocali con l’IA pre-addestrata

Audio Toolbox e Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries consentono di eseguire attività avanzate di elaborazione e analisi di segnali audio e vocali utilizzando modelli di IA pre-addestrati.

Utilizzando singole chiamate di funzione e senza avere competenze specifiche in ambito di Deep Learning, è possibile:

  • Trascrivere il parlato con il riconoscimento vocale automatico (ASR) utilizzando pipeline di speech-to-text (STT)
  • Sintetizzare il parlato utilizzando pipeline di text-to-speech (TTS)
  • Rilevare il parlato mediante rilevazione di attività vocale (VAD), identificare le lingue parlate e classificare i suoni
  • Registrare e identificare i parlanti tramite modelli di Deep Learning per il riconoscimento vocale e pipeline di Machine Learning
  • Separare le sorgenti vocali in un cocktail party problem e migliorare i segnali vocali mediante rimozione del rumore
  • Stimare il pitch musicale ed estrarre embedding da segnali audio, vocali e musicali

Le funzioni utilizzano modelli pre-addestrati di Machine Learning e Deep Learning e vengono eseguite tramite una combinazione di MATLAB, Python® e PyTorch®.

Pittogramma che raffigura l’uso di una rete all’interno di cuffie in grado di tradurre da parlato a testo e viceversa.

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries consente di utilizzare una raccolta di modelli di IA pre-addestrati con le funzioni di Audio Toolbox per l’elaborazione e l’analisi di segnali.

L’interfaccia automatizza l’installazione di Python e PyTorch e scarica i modelli di Deep Learning selezionati dalle librerie SpeechBrain e Torchaudio. Una volta installata, esegue le seguenti funzioni tramite l’utilizzo sottostante di modelli di IA locali:

  • speech2text accetta un oggetto speechClient con il modello impostato su emformer o whisper, in aggiunta al modello wav2vec locale e alle opzioni di servizi cloud come Google, IBM, Microsoft e Amazon. L’utilizzo di whisper richiede inoltre di scaricare separatamente i pesi del modello, come descritto in Come scaricare il modello whisper per la conversione da parlato a testo.
  • text2speech accetta un oggetto speechClient con il modello impostato su hifigan, in aggiunta alle opzioni di servizi cloud come Google, IBM, Microsoft e Amazon.

Le funzioni speech2text e text2speech accettano e generano stringhe di testo e campioni audio. Queste funzioni non richiedono di scrivere codice per la pre-elaborazione dei segnali, l’estrazione delle feature, la previsione del modello e la post-elaborazione dell’output.

Oggetto speechClient con un elenco di opzioni del modello.
Codice che utilizza la funzione speech2text con un oggetto speechClient non predefinito per il modello whisper in modalità traduzione.

Traduzione e trascrizione di parlato multilingue con whisper

Codice che utilizza la funzione text2speech per generare parlato sintetico a partire dal testo.

Sintesi del parlato dal testo mediante un modello locale

App Signal Labeler con segnale vocale etichettato e sovrapposizione delle forme d’onda che identifica le parole pronunciate con la loro trascrizione.

Etichettatura delle registrazioni vocali utilizzando la conversione da parlato a testo in Signal Labeler

IA pronta all’uso con funzioni aggiuntive per parlato e audio

Audio Toolbox include funzioni aggiuntive come classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnn e identifyLanguage. Queste funzioni consentono di utilizzare modelli avanzati di Deep Learning per l’elaborazione e l’analisi di segnali audio senza richiedere competenze in IA. Questi modelli non richiedono Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries.

Grafico del segnale audio con segmenti etichettati che evidenziano classi specifiche di suoni.

Classificazione di suoni con classifySound

Quattro grafici: mix audio originale, due componenti vocali separate e il segnale residuo con ampiezza trascurabile.

Separazione di sorgenti vocali con separateSpeakers

Griglia di grafici 2x2 che mostra due segnali diversi e i rispettivi spettrogrammi tempo-frequenza, evidenziando le differenze tra la registrazione originale e la versione migliorata.

Miglioramento del parlato con enhanceSpeech

Utilizzo di MATLAB con PyTorch per lo sviluppo di modelli di Deep Learning

Gli utenti di MATLAB e PyTorch che hanno familiarità con il Deep Learning possono utilizzare entrambi i linguaggi insieme per sviluppare e addestrare modelli di IA, anche tramite workflow di co-esecuzione e scambio di modelli.

Per saperne di più: