聲學(xué)特征的提取與選擇是語音識別的一個(gè)重要環(huán)節(jié)。聲學(xué)特征的提取既是一個(gè)信息大幅度壓縮的過程,也是一個(gè)信號解卷過程,目的是使模式劃分器能更好地劃分。由于語音信號的時(shí)變特性,特征提取必須在一小段語音信號上進(jìn)行,也即進(jìn)行短時(shí)分析。這一段被認(rèn)為是平穩(wěn)的分析區(qū)間稱之為幀,幀與幀之間的偏移通常取幀長的1/2或1/3。通常要對信號進(jìn)行預(yù)加重以提升高頻,對信號加窗以避免短時(shí)語音段邊緣的影響。
LPC
線性預(yù)測分析從人的發(fā)聲機(jī)理入手,通過對聲道的短管級聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,從而n 時(shí)刻的信號可以用前若干時(shí)刻的信號的線性組合來估計(jì)。通過使實(shí)際語音的采樣值和線性預(yù)測采樣值之間達(dá)到均方差最小LMS,即可得到線性預(yù)測系數(shù)LPC。對 LPC的計(jì)算方法有自相關(guān)法(德賓Durbin法)、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測參數(shù)模型類似的聲學(xué)特征還有線譜對LSP、反射系數(shù)等等。
CEP
利用同態(tài)處理方法,對語音信號求離散傅立葉變換DFT后取對數(shù),再求反變換iDFT就可得到倒譜系數(shù)。對LPC倒譜(LPCCEP),在獲得濾波器的線性預(yù)測系數(shù)后,可以用一個(gè)遞推公式計(jì)算得出。實(shí)驗(yàn)表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。
Mel
不同于LPC等通過對人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征,Mel倒譜系數(shù)MFCC和感知線性預(yù)測 PLP是受人的聽覺系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征。對人的聽覺機(jī)理的研究發(fā)現(xiàn),當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人只能聽到一個(gè)音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人就會把兩個(gè)音調(diào)聽成一個(gè),這稱之為屏蔽效應(yīng)。Mel刻度是對這一臨界帶寬的度量方法之一。
MFCC
首先用FFT將時(shí)域信號轉(zhuǎn)化成頻域,之后對其對數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)行卷積,最后對各個(gè)濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT,取前N個(gè)系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù),但在計(jì)算自相關(guān)參數(shù)時(shí)用的也是對聽覺激勵(lì)的對數(shù)能量譜進(jìn)行DCT的方法。