基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)是以語(yǔ)料的應(yīng)用為核心,由經(jīng)過劃分并具有標(biāo)注的語(yǔ)料庫(kù)構(gòu)成知識(shí)庫(kù)。這種翻譯方法把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^程,用一種信道模型對(duì)機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為,源語(yǔ)言句子到目標(biāo)語(yǔ)言句子的翻譯是一個(gè)概率問題,任何一個(gè)目標(biāo)語(yǔ)言句子都有可能是任何一個(gè)源語(yǔ)言句子的譯文,只是概率不同,機(jī)器翻譯的任務(wù)就是找到概率最大的句子。具體方法是將翻譯看做對(duì)原文通過模型轉(zhuǎn)換為譯文的解碼過程。因此統(tǒng)計(jì)機(jī)器翻譯又可以分為以下幾個(gè)問題:模型問題、訓(xùn)練問題、解碼問題。所謂模型問題,就是為機(jī)器翻譯建立概率模型,也就是要定義源語(yǔ)言句子到目標(biāo)語(yǔ)言句子的翻譯概率的計(jì)算方法。而訓(xùn)練問題,是要利用語(yǔ)料庫(kù)來得到這個(gè)模型的所有參數(shù)。所謂解碼問題,則是在已知模型和參數(shù)的基礎(chǔ)上,對(duì)于任何一個(gè)輸入的源語(yǔ)言句子,去查找概率最大的譯文。