聲學模型是語音識別模型中用于識別聲音的模型。
HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學特征。用HMM刻畫語音信號需作出兩個假設,一是內部狀態(tài)的轉移只與上一狀態(tài)有關,另一是輸出值只與當前狀態(tài)(或當前的狀態(tài)轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的算法是前向算法、Viterbi算法和前向后向算法。
語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓撲結構來對識別基元建模,一個音素就是一個三至五狀態(tài)的HMM,一個詞就是構成詞的多個音素的HMM串行起來構成的HMM,而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。
上下文相關建模:協(xié)同發(fā)音,指的是一個音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機理上看就是人的發(fā)聲器官在一個音轉向另一個音時其特性只能漸變,從而使得后一個音的頻譜與其他條件下的頻譜產生差異。上下文相關建模方法在建模時考慮了這一影響,從而使模型能更準確地描述語音,只考慮前一音的影響的稱為Bi- Phone,考慮前一音和后一音的影響的稱為Tri-Phone。
英語的上下文相關建模通常以音素為基元,由于有些音素對其后音素的影響是相似的,因而可以通過音素解碼狀態(tài)的聚類進行模型參數(shù)的共享。聚類的結果稱為senone。決策樹用來實現(xiàn)高效的triphone對senone的對應,通過回答一系列前后音所屬類別(元/輔音、清/濁音等等)的問題,最終確定其HMM狀態(tài)應使用哪個senone。分類回歸樹CART模型用以進行詞到音素的發(fā)音標注。