Audio Toolbox e Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries consentono di eseguire attività avanzate di elaborazione e analisi di segnali audio e vocali utilizzando modelli di IA pre-addestrati.
Utilizzando singole chiamate di funzione e senza avere competenze specifiche in ambito di Deep Learning, è possibile:
- Trascrivere il parlato con il riconoscimento vocale automatico (ASR) utilizzando pipeline di speech-to-text (STT)
- Sintetizzare il parlato utilizzando pipeline di text-to-speech (TTS)
- Rilevare il parlato mediante rilevazione di attività vocale (VAD), identificare le lingue parlate e classificare i suoni
- Registrare e identificare i parlanti tramite modelli di Deep Learning per il riconoscimento vocale e pipeline di Machine Learning
- Separare le sorgenti vocali in un cocktail party problem e migliorare i segnali vocali mediante rimozione del rumore
- Stimare il pitch musicale ed estrarre embedding da segnali audio, vocali e musicali
Le funzioni utilizzano modelli pre-addestrati di Machine Learning e Deep Learning e vengono eseguite tramite una combinazione di MATLAB, Python® e PyTorch®.
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries consente di utilizzare una raccolta di modelli di IA pre-addestrati con le funzioni di Audio Toolbox per l’elaborazione e l’analisi di segnali.
L’interfaccia automatizza l’installazione di Python e PyTorch e scarica i modelli di Deep Learning selezionati dalle librerie SpeechBrain e Torchaudio. Una volta installata, esegue le seguenti funzioni tramite l’utilizzo sottostante di modelli di IA locali:
speech2textaccetta un oggettospeechClientcon il modello impostato suemformerowhisper, in aggiunta al modellowav2veclocale e alle opzioni di servizi cloud comeGoogle,IBM,MicrosofteAmazon. L’utilizzo diwhisperrichiede inoltre di scaricare separatamente i pesi del modello, come descritto in Come scaricare il modello whisper per la conversione da parlato a testo.text2speechaccetta un oggettospeechClientcon il modello impostato suhifigan, in aggiunta alle opzioni di servizi cloud comeGoogle,IBM,MicrosofteAmazon.
Le funzioni speech2text e text2speech accettano e generano stringhe di testo e campioni audio. Queste funzioni non richiedono di scrivere codice per la pre-elaborazione dei segnali, l’estrazione delle feature, la previsione del modello e la post-elaborazione dell’output.
Etichettatura delle registrazioni vocali utilizzando la conversione da parlato a testo in Signal Labeler
IA pronta all’uso con funzioni aggiuntive per parlato e audio
Audio Toolbox include funzioni aggiuntive come classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnn e identifyLanguage. Queste funzioni consentono di utilizzare modelli avanzati di Deep Learning per l’elaborazione e l’analisi di segnali audio senza richiedere competenze in IA. Questi modelli non richiedono Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries.
Utilizzo di MATLAB con PyTorch per lo sviluppo di modelli di Deep Learning
Gli utenti di MATLAB e PyTorch che hanno familiarità con il Deep Learning possono utilizzare entrambi i linguaggi insieme per sviluppare e addestrare modelli di IA, anche tramite workflow di co-esecuzione e scambio di modelli.
Per saperne di più:
- Interoperabilità tra Deep Learning Toolbox, TensorFlow, PyTorch e ONNX
- Utilizzo di risorse MATLAB e Python
- Co-esecuzione di PyTorch e TensorFlow per l’addestramento di un sistema di riconoscimento di comandi vocali
- Utilizzo di un sistema di riconoscimento di comandi vocali Python all’interno di MATLAB