自然語言處理(Natural Language Processing,NLP )是人工智能涉及到的非常重要的技術(shù)之一,其目的是用自然語言實現(xiàn)人機交互,涉及到計算機科學、人工智能、語言學等眾多學科。
實現(xiàn)人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,即自然語言理解,也能以自然語言文本來表達給定的意圖、思想等,即自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。無論實現(xiàn)自然語言理解,還是自然語言生成,都遠不如人們原來想象的那么簡單。
具體來說,造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。例如,在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是截取能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。有時不同的邊界截取會產(chǎn)生不一樣的語義,例如,在一些對聯(lián)中,由于沒有標點,不同的詞語邊界截取就會產(chǎn)生不一樣的意思。除此之外,還包括多音字、多義詞、不同的口音等,這些都給計算機理解人類自然語言造成了很大障礙。
因此,從1949年美國人威弗提出的機器翻譯設計方案之后,自然語言處理技術(shù)的發(fā)展經(jīng)歷了多個階段,從最早利用語法規(guī)則、單詞或短語對應進行翻譯,到現(xiàn)在以大規(guī)模真實語料庫和大規(guī)模、信息豐富的信息詞典為基礎,強調(diào)對大規(guī)模真實文本的處理能力。即:
(1)對系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實用價值。
(2)對系統(tǒng)的輸出,鑒于真實地理解自然語言是十分困難的,對系統(tǒng)并不要求能對自然語言文本進行深層的理解,但要能從中抽取有用的信息。例如,對自然語言文本進行自動地提取索引詞,過濾,檢索,自動提取重要信息,進行自動摘要等。
從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,針對具體應用、具有相當自然語言處理能力的實用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開始產(chǎn)業(yè)化,但是,通用的、高質(zhì)量的自然語言處理系統(tǒng),仍然是較長期的努力目標。