語法解析是自然語言處理的一個(gè)重要環(huán)節(jié),其目的是根據(jù)一定的語法規(guī)則,分析句予的語法結(jié)構(gòu),并給出句子的結(jié)構(gòu)表達(dá)(通常是語法樹)。一方面涉及句子語法在計(jì)算機(jī)中的表達(dá)與存儲(chǔ)方法,和語料數(shù)據(jù)集,另一方面涉及語法解析的算法。
對于句子語法的表達(dá),一般的做法是將句子中的名詞、動(dòng)詞、介詞等用樹狀結(jié)構(gòu)圖表達(dá)出來,而成熟的、手工標(biāo)注的語料數(shù)據(jù)集在互聯(lián)網(wǎng)上也可以找到。
用于語法解析的算法主要有上下文無關(guān)語法(Context-Free Grammer,CFG)、概率分布的上下文無關(guān)語法(Probabilistic Context-Free Grammar,PCFG)。
CFG可以很容易的推導(dǎo)出一個(gè)句子的語法結(jié)構(gòu),但是缺點(diǎn)是推導(dǎo)出的結(jié)構(gòu)可能存在二義性,例如,同一個(gè)單詞不同詞性的含義不同,連續(xù)的名字,以及介詞短語范圍等等。解決二義性的問題,通常使用PCFG從多種可能的語法樹中找出最可能的那種。