La traduzione di questa pagina non è aggiornata. Fai clic qui per vedere l'ultima versione in inglese.

Frame di Gabor non stazionari e trasformata a Q costante

I frame di Gabor non stazionari consentono di implementare l’analisi tempo-adattiva o frequenza-adattiva dei segnali. Le funzioni cqt e icqt utilizzano i frame di Gabor non stazionari per ottenere una trasformata a Q costante (frequenza-adattiva) (CQT) di un segnale. Un punto di forza notevole dei frame di Gabor non stazionari è che consentono di creare inverse stabili, ottenendo una ricostruzione perfetta.

La teoria delle trasformate di Gabor (NSGT) è stata introdotta da Jaillet [1] e Balazs, Dörfler, Jaillet, Holighaus e Velasco [2]. La teoria consente di implementare in modo efficiente le NGST utilizzando metodi basati sulla FFT. Dörfler, Holighaus, Grill e Velasco [3], [4] sviluppano una struttura per una CQT efficiente e perfettamente invertibile. Gli algoritmi in [3], [4] implementano una versione a fase bloccata della CQT che non conserva le stesse fasi che si otterrebbero con una convoluzione naïf. In [5], Schörkhuber, Klapuri, Holighaus e Dörfler sviluppano algoritmi efficienti per la CQT e la CQT inversa che imitano i coefficienti ottenuti dalla convoluzione naïf. La Large Time-Frequency Analysis Toolbox [6] fornisce un ampio insieme di algoritmi per l'analisi e la sintesi di frame di Gabor non stazionari.

Nell’analisi standard di Gabor, una finestra di dimensioni fisse riveste il piano tempo-frequenza. Un frame di Gabor non stazionario è un insieme di funzioni finestra di varie dimensioni che sono utilizzate per rivestire il piano tempo-frequenza. L'analisi wavelet riveste il piano tempo-frequenza in modo simile. È possibile modificare la densità di campionamento nel tempo o nella frequenza. I frame di Gabor non stazionari sono utili in applicazioni come l'elaborazione dei segnali audio, dove le finestre tempo-frequenza a dimensioni fisse non sono ottimali. A differenza della trasformata di Fourier a tempo breve, le finestre utilizzate nella trasformata a Q costante hanno larghezza di banda e densità di campionamento adattabili. Nello spazio di frequenza, le finestre sono centrate su frequenze centrali distanziate logaritmicamente.

Scomposizione del piano tempo-frequenza

La trasformata di Fourier di f(t) è la correlazione di f(t) con e^{j ω t}:

$F (ω) = \int_{- \infty}^{\infty} f (t) e^{- j ω t} d t .$

Poiché e^{j ω t} non ha un supporto compatto, la trasformata di Fourier non è una scelta ideale per studiare i segnali non stazionari. Se il contenuto in frequenza di un segnale cambia nel tempo, la trasformata di Fourier non cattura né quali siano questi cambiamenti né quando si verifichino. La partizione del piano tempo-frequenza mostrata qui rappresenta questo comportamento della trasformata di Fourier.

Per eseguire un’analisi tempo-frequenza di un segnale non stazionario f(t), utilizzare una funzione finestra $g (t)$ , ossia:

Pari e a valore reale.
Effettivamente diversa da zero solo su un intervallo finito.
Ha norma pari a uno.
La trasformata di Fourier di $g (t)$ è centrata su zero ed è passa-basso.

Scorrere la finestra $g (t)$ su f(t) e prendere la trasformata di Fourier del risultato:

$S F (u, ζ) = \int f (t) g (t - u) e^{- j ζ t} d t .$

Correlare f(t) con gli atomi di Gabor, $g (t - u) e^{j ζ t}$ , si tratta dell’analisi standard di Gabor. Variandou, si considerano solo i valori di f(t) vicini al tempou. Il supporto di $g (t)$ determina la dimensione dell’intorno vicino al tempo u. La trasformata di Fourier di $g_{u, ζ} (t) = g (t - u) e^{ζ t}$ è la traslazione per ζ della trasformata di Fourier di $g (t)$ , ed è data da

${\hat{g}}_{u, ζ} (ω) = e^{- (ω - ζ)} \hat{g} (ω - ζ) .$

La concentrazione di energia di ${\hat{g}}_{u, ζ} (ω)$ ha varianza σ_ω ed è centrata su ζ. Se la finestra, $g_{u, ζ} (t) = g (t - u) e^{ζ t}$ , si sposta su una griglia regolare, la trasformata di Fourier del prodotto della finestra spostata e f(t) è la trasformata di Fourier a tempo breve (STFT). La STFT che riveste il piano tempo-frequenza può essere rappresentata come una griglia di riquadri, ciascuno centrata su (u, ζ):

L’insieme di funzioni ${g_{u, ζ}}$ è noto come un frame di Gabor. Gli elementi di questo insieme sono chiamati atomi di Gabor. Un frame è un insieme di funzioni {h_k(t)} che soddisfa la condizione seguente: esistono costanti 0 < A ≤ B < ∞ tali che, per ciascuna funzione f(t),

$A ‖ f ‖^{2} \leq Σ_{k} | 〈 f, h_{k} 〉 |^{2} \leq B ‖ f ‖^{2} .$

La concentrazione di energia di $g (t)$ , nel tempo, ha varianza σ_t. La concentrazione di energia di $\hat{g} (ω)$ , nella frequenza, ha varianza σ_ω. La concentrazione di energia determina quanto bene la finestra localizza il segnale nel tempo e nella frequenza. In base al principio di indeterminazione tempo-frequenza, esiste un limite alla capacità di localizzazione simultanea nei domini del tempo e della frequenza, come indicato dal

$σ_{t} σ_{ω} \geq \frac{1}{2} .$

Restringendo la finestra in un dominio si ottiene una localizzazione più scadente nell'altro dominio. Gabor ha dimostrato che l’area della finestra è minima quando $g (t)$ è gaussiano.

Trasformata a Q costante

Nella CQT, la larghezza di banda e la densità di campionamento in frequenza sono variate. Le finestre sono costruite e applicate direttamente nel dominio della frequenza. Finestre diverse hanno frequenze centrali e larghezze di banda diverse, ma il rapporto tra la frequenza centrale e la larghezza di banda rimane costante. Il mantenimento di un rapporto costante implica:

La risoluzione nel tempo migliora a frequenze più alte.
La risoluzione in frequenza migliora a frequenze più basse.

A causa del principio di indeterminazione, gli spostamenti temporali per ciascuna finestra dipendono dalla larghezza di banda.

La CQT dipende da:

Le funzioni finestra g_k sono funzioni pari a valore reale. Nel dominio della frequenza, la trasformata di Fourier di g_k è definita sull’intervallo [-Fs/2, Fs/2].
La frequenza di campionamento, ζ_s.
Il numero di bin per ottava, b.
La frequenza minima e massima, ζ_min e ζ_max.

Scegliere una frequenza minima, ζ_min, e un numero di bin per ottava b. Quindi, formare una sequenza di frequenze distanziate geometricamente

ζ_k = ζ_min × 2^k/b

per k = 0,...,K dove K è un numero intero tale che ζ_K sia la frequenza più ampia, tassativamente inferiore alla frequenza Nyquist ζ_s/2. La larghezza di banda alla k-esima frequenza è impostata su Ω_k = ζ_k+1-ζ_k-1. Dato questo campionamento, il rapporto tra la frequenza centrale k-esima e la larghezza di banda della finestra è indipendente da k:

Q = ζ_k/Δ_k = (2^1/b-2^-1/b)^-1.

Per garantire una ricostruzione perfetta, il componente DC viene anteposto alla sequenza e la frequenza di Nyquist viene aggiunta alla sequenza.

W(ω) forma le funzioni finestra g_k.W(ω) è una funzione continua pari a valore reale centrata su 0, positiva nell’intervallo [-½,½] e 0 altrove.W(ω) è traslata su ciascuna frequenza centrale ζ_k e successivamente scalata. Valutando una versione scalata e traslata di W(ω) si ottengono i coefficienti del filtro g_k[m], dati da

g_k[m] = W((m ζ_s/L - ζ_k)/Ω_k)

per m = 0, …, L-1, dove L è la lunghezza del segnale. Per impostazione predefinita, cqt utilizza la finestra 'hann'.

Per il principio di indeterminazione, la dimensione della larghezza di banda limita il valore degli spostamenti temporali. Per soddisfare la disuguaglianza del frame, lo spostamentoa_kdi g_k deve soddisfare

a_k ≤ ζ_k/Ω_k.

Come detto in precedenza, la finestra è applicata nel dominio della frequenza. I filtri g_k, centrati su ζ_k, vengono formati e applicati alla trasformata di Fourier del segnale. Prendendo la trasformata inversa si ottengono i coefficienti a Q costante.

Bibliografia

[1] Jaillet, Florent. “Représentation et traitement temps-fréquence des signaux audionumériques pour des applications de design sonore.” Ph.D. dissertation, Université de la Méditerranée, Aix-Marseille II, 2005.

[2] Balazs, P., M. Dörfler, F. Jaillet, N. Holighaus, and G. Velasco. “Theory, Implementation and Applications of Nonstationary Gabor Frames.” Journal of Computational and Applied Mathematics 236, no. 6 (October 2011): 1481–96. https://doi.org/10.1016/j.cam.2011.09.011.

[3] Holighaus, Nicki, M. Dörfler, G. A. Velasco, and T. Grill. “A Framework for Invertible, Real-Time Constant-Q Transforms.” IEEE Transactions on Audio, Speech, and Language Processing 21, no. 4 (April 2013): 775–85. https://doi.org/10.1109/TASL.2012.2234114.

[4] Velasco, G. A., N. Holighaus, M. Dörfler, and T. Grill. "Constructing an invertible constant-Q transform with nonstationary Gabor frames." In Proceedings of the 14th International Conference on Digital Audio Effects (DAFx-11). Paris, France: 2011.

[5] Schörkhuber, C., A. Klapuri, N. Holighaus, and M. Dörfler. "A MATLAB^® Toolbox for Efficient Perfect Reconstruction Time-Frequency Transforms with Log-Frequency Resolution." Submitted to the AES 53rd International Conference on Semantic Audio. London, UK: 2014.

[6] Průša, Z., P. L. Søndergaard, N. Holighaus, C. Wiesmeyr, and P. Balazs. The Large Time-Frequency Analysis Toolbox 2.0. Sound, Music, and Motion, Lecture Notes in Computer Science 2014, pp 419–442. https://github.com/ltfat

Vedi anche

icqt | cqt

Argomenti

Trasformata di Fourier a tempo breve