自然語(yǔ)言處理(Natural Language Processing,NLP )是人工智能涉及到的非常重要的技術(shù)之一,其目的是用自然語(yǔ)言實(shí)現(xiàn)人機(jī)交互,涉及到計(jì)算機(jī)科學(xué)、人工智能、語(yǔ)言學(xué)等眾多學(xué)科。
實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,即自然語(yǔ)言理解,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等,即自然語(yǔ)言生成。因此,自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。無(wú)論實(shí)現(xiàn)自然語(yǔ)言理解,還是自然語(yǔ)言生成,都遠(yuǎn)不如人們?cè)瓉?lái)想象的那么簡(jiǎn)單。
具體來(lái)說(shuō),造成困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。例如,在口語(yǔ)中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是截取能讓給定的上下文最為通順且在文法上無(wú)誤的一種最佳組合。在書(shū)寫(xiě)上,漢語(yǔ)也沒(méi)有詞與詞之間的邊界。有時(shí)不同的邊界截取會(huì)產(chǎn)生不一樣的語(yǔ)義,例如,在一些對(duì)聯(lián)中,由于沒(méi)有標(biāo)點(diǎn),不同的詞語(yǔ)邊界截取就會(huì)產(chǎn)生不一樣的意思。除此之外,還包括多音字、多義詞、不同的口音等,這些都給計(jì)算機(jī)理解人類(lèi)自然語(yǔ)言造成了很大障礙。
因此,從1949年美國(guó)人威弗提出的機(jī)器翻譯設(shè)計(jì)方案之后,自然語(yǔ)言處理技術(shù)的發(fā)展經(jīng)歷了多個(gè)階段,從最早利用語(yǔ)法規(guī)則、單詞或短語(yǔ)對(duì)應(yīng)進(jìn)行翻譯,到現(xiàn)在以大規(guī)模真實(shí)語(yǔ)料庫(kù)和大規(guī)模、信息豐富的信息詞典為基礎(chǔ),強(qiáng)調(diào)對(duì)大規(guī)模真實(shí)文本的處理能力。即:
(1)對(duì)系統(tǒng)輸入,要求研制的自然語(yǔ)言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實(shí)用價(jià)值。
(2)對(duì)系統(tǒng)的輸出,鑒于真實(shí)地理解自然語(yǔ)言是十分困難的,對(duì)系統(tǒng)并不要求能對(duì)自然語(yǔ)言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。例如,對(duì)自然語(yǔ)言文本進(jìn)行自動(dòng)地提取索引詞,過(guò)濾,檢索,自動(dòng)提取重要信息,進(jìn)行自動(dòng)摘要等。
從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,針對(duì)具體應(yīng)用、具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開(kāi)始產(chǎn)業(yè)化,但是,通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng),仍然是較長(zhǎng)期的努力目標(biāo)。