Audio Toolbox
Progettazione e analisi di sistemi di elaborazione vocale, acustica e audio
Audio Toolbox™ fornisce strumenti per l’elaborazione audio, l’analisi vocale e la misurazione acustica. Include algoritmi per l’elaborazione di segnali audio (come l’equalizzazione e il controllo dell’intervallo dinamico) e la misurazione acustica (come la stima della risposta all’impulso, il filtraggio ad ottave e la ponderazione percettiva). Inoltre, fornisce algoritmi per l’estrazione di feature audio e vocali (come MFCC e pitch) e la trasformazione di segnali audio (come il filter bank gammatone e lo spettrogramma su scala Mel).
Le app del toolbox supportano la verifica di algoritmi in tempo reale, la misurazione della risposta all’impulso e l’etichettatura di segnali audio. Il toolbox fornisce interfacce streaming per schede audio ASIO, WASAPI, ALSA e CoreAudio e dispositivi MIDI, nonché strumenti per la generazione e l’hosting di plug-in audio standard come VST e Audio Unit.
Con Audio Toolbox è possibile importare, etichettare ed incrementare set di dati, estrarre feature e trasformare segnali per il machine learning e il deep learning. È inoltre possibile prototipare algoritmi di elaborazione audio in tempo reale eseguendo lo streaming di audio a bassa latenza, regolando i parametri e visualizzando i segnali. Inoltre, si è in grado di convalidare l’algoritmo trasformandolo in un plug-in audio per eseguirlo in applicazioni host esterne come workstation audio digitali. L’hosting dei plug-in consente di utilizzare i plug-in audio esterni come oggetti normali per elaborare gli array MATLAB®. La connettività della scheda audio consente di eseguire misurazioni personalizzate su segnali audio reali e sistemi acustici.
Inizia ora:
Connettività a driver audio standard
Leggi e scrivi campioni audio da e su schede audio (come USB o Thunderbolt™) utilizzando driver audio standard (come ASIO, WASAPI, CoreAudio e ALSA) nei sistemi operativi Windows®, Mac® e Linux®.
Streaming di audio multicanale a bassa latenza
Elabora audio live in MATLAB con millisecondi di latenza andata e ritorno.
Modelli di deep learning pre-addestrati
Utilizza i modelli di deep learning più diffusi e pre-addestrati con grandi set di dati audio per eseguire attività di elaborazione audio complesse, tra cui classificare gli eventi sonori nelle registrazioni audio con Yamnet ed estrarre gli embedding di suoni con VGGish.
Estrazione di feature audio e voce
Estrai feature di basso livello per l’analisi di audio e voce, inclusi coefficienti di frequenza Mel-cepstrali (MFCC), coefficienti GTCC (Gammatone Cepstral Coefficient), pitch, armonicità e descrittori spettrali. Inserisci nuovi dati nelle architetture di deep learning che lavorano su serie storiche, come quelle basate su strati LSTM.
Trasformazioni tempo-frequenza
Trasforma i segnali in rappresentazioni tempo-frequenza utilizzando una trasformata discreta del coseno modificata (MDCT), una trasformata di Fourier di breve durata (STFT) o il più compatto spettrogramma su scala Mel. Scomponi i segnali utilizzando bande di frequenza percettivamente distanziate che utilizzano filter bank gammatone. Inserisci nuovi dati nei modelli di deep learning che lavorano su dati bidimensionali, come quelli basati su layer CNN.
Etichettatura e annotazione di set di dati audio
Assegna annotazioni ed etichette di verità di base (ground truth) a registrazioni audio e set di dati manualmente e automaticamente. Rileva le regioni del parlato nei segnali audio. Automatizza la trascrizione vocale utilizzando i servizi Cloud di riconoscimento vocale.
Immissione di grandi set di dati audio
Indicizza e leggi da ampie serie di registrazioni audio utilizzando audioDatastore
. Ripartisci in modo casuale elenchi di file audio in base alle etichette. Parallelizza operazioni di elaborazione utilizzando tall array per l’incremento di dati, le trasformazioni tempo-frequenza e l’estrazione di feature.
Incremento e sintesi di set di dati audio e vocali
Imposta pipeline di incremento dati randomizzate utilizzando combinazioni di pitch shifting, time stretching e altri effetti di elaborazione audio. Crea registrazioni vocali sintetiche dal testo utilizzando servizi di sintesi vocale basati su Cloud.
Filtri ed equalizzatori audio
Modella e applica filtri EQ parametrici, EQ grafici, shelving e a pendenza variabile. Progetta e simula filtri crossover digitali, d’ottava e a frazione d’ottava.
Controllo ed effetti dell’intervallo dinamico
Modella e applica gli algoritmi di elaborazione dell’intervallo dinamico come il compressore, il limitatore, l’espansore e il noise gate. Aggiungi riverbero artificiale con modelli parametrici ricorsivi.
Simulazione di sistemi con diagrammi a blocchi
Progetta e simula modelli di sistemi utilizzando librerie di blocchi di elaborazione audio per Simulink®. Regola i parametri e visualizza il comportamento dei sistemi utilizzando controlli interattivi e grafici dinamici.
Regolazione dei parametri live tramite interfacce utente
Crea automaticamente interfacce utente per i parametri regolabili degli algoritmi di elaborazione audio. Esegui il testing di singoli algoritmi con l’app Audio Test Bench e regola i parametri nei programmi in esecuzione con controlli interattivi autogenerati.
Connettività MIDI per il controllo dei parametri e lo scambio di messaggi
Modifica in modo interattivo i parametri degli algoritmi MATLAB utilizzando le superfici di controllo MIDI. Controlla hardware esterni o rispondi agli eventi inviando e ricevendo qualsiasi tipo di messaggio MIDI.
Analisi e misurazione su base standard
Applica i misuratori del livello di pressione sonora (SPL) e i misuratori del volume ai segnali registrati o live. Analizza i segnali con filtri d’ottava e a frazione d’ottava. Applica filtri di ponderazione A, C o K conformi agli standard alle registrazioni grezze.
Misurazione della risposta all’impulso
Misura le risposte all’impulso e in frequenza di sistemi audio e acustici con sequenze MLS (maximum-length sequence) e sinusoidi ESS (Exponential Swept Sinusoid). Familiarizza con l’app Impulse Response Measurer. Automatizza le misurazioni generando in modo programmatico segnali di eccitazione e stimando le risposte del sistema.
Convoluzione efficiente con le risposte all’impulso dell’ambiente
Convolvi segnali in modo efficiente con risposte all’impulso di lunga durata utilizzando le implementazioni “overlap-and-add” e “overlap-and-save” del dominio della frequenza. Compensa la latenza con la velocità di calcolo utilizzando il partizionamento automatico della risposta all'impulso.
Audio spaziale
Codifica e decodifica diversi formati ambisonici. Interpola le funzioni Head Related Transfer Function (HRTF) campionate nello spazio.
Generazione di plug-in audio
Genera plug-in VST, plug-in AU e plug-in eseguibili standalone direttamente dal codice MATLAB senza dover progettare manualmente le interfacce utente. Per una prototipazione dei plug-in più avanzata, genera progetti JUCE C++ pronti da costruire (richiede MATLAB Coder™).
Hosting di plug-in audio esterni
Utilizza VST esterni e plug-in AU come normali oggetti MATLAB. Modifica i parametri del plug-in ed elabora in modo programmatico gli array MATLAB. In alternativa, automatizza le associazioni dei parametri dei plug-in con interfacce utente e controlli MIDI. Esegui l’hosting dei plug-in generati dal tuo codice MATLAB per una maggiore efficienza di esecuzione.
Dispositivi mobili e low cost
Prototipa progetti di elaborazione audio su Raspberry Pi™ utilizzando interfacce audio multicanale interne o esterne. Crea pannelli di controllo interattivi come app mobile per dispositivi Android® o iOS.
Sistemi a latenza zero
Prototipa progetti di elaborazione audio con input e output di un singolo campione per il controllo adattivo del rumore, la convalida di apparecchi acustici o altre applicazioni che richiedono una latenza DSP di andata e ritorno minima. Punta automaticamente le macchine audio Speedgoat e le schede ST Discovery direttamente dai modelli Simulink.
Classificazione di suoni YAMNet
Classificazione delle registrazioni audio con il deep learning (richiede Deep Learning Toolbox)
Embedding di suoni VGGish
Estrazione di feature audio di alto livello con il deep learning (richiede Deep Learning Toolbox)
Delta Feature e coefficienti cepstrali generalizzati
Calcolo di MFCC, GTCC, BFCC e di altri tipi di coefficienti cepstrali, spettrogrammi uditivi e Delta Feature
Analisi in ottave per le frequenze inaudibili
Analisi dei segnali con una migliore progettazione dei filtri a ottave usando octaveFilter, octaveFilterBank e splMeter
Fluttuazione acustica
Misurazione della fluttuazione acustica percepita
Accelerazione GPU per l’estrazione delle feature
Accelerazione delle ulteriori funzioni per estrarre feature con schede GPU compatibili (richiede Parallel Computing Toolbox)
Consulta le note della release per ulteriori informazioni su queste caratteristiche e sulle funzioni corrispondenti.