- 人工智能(AI)應用從入門到精通
- 蘇秉華 吳紅輝 滕悅然編著
- 1141字
- 2020-11-18 12:00:32
三、自然語言處理
自然語言處理是計算機科學領域與人工智能領域中的一個重要方向,研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法,涉及的領域較多,主要包括機器翻譯、語義理解和問答系統(tǒng)等。
1.機器翻譯
機器翻譯是指利用計算機技術實現(xiàn)從一種自然語言到另外一種自然語言的翻譯過程。基于統(tǒng)計的機器翻譯方法突破了之前基于規(guī)則和實例翻譯方法的局限性,翻譯性能取得巨大提升。基于深度神經網絡的機器翻譯在日常口語等一些場景的成功應用已經顯現(xiàn)出了巨大的潛力。隨著上下文的語境表征和知識邏輯推理能力的發(fā)展,自然語言知識圖譜不斷擴充,機器翻譯將會在多輪對話翻譯及篇章翻譯等領域取得更大進展。
目前,非限定領域機器翻譯中性能較佳的一種是統(tǒng)計機器翻譯,包括訓練及解碼兩個階段。訓練階段的目標是獲得模型參數(shù),解碼階段的目標是利用所估計的參數(shù)和給定的優(yōu)化目標,獲取待翻譯語句的最佳翻譯結果。統(tǒng)計機器翻譯主要包括語料預處理、詞對齊、短語抽取、短語概率計算、最大熵調序等步驟。基于神經網絡的端到端翻譯方法不需要針對雙語句子專門設計特征模型,而是直接把源語言句子的詞串送入神經網絡模型,經過神經網絡的運算,得到目標語言句子的翻譯結果。在基于端到端的機器翻譯系統(tǒng)中,通常采用遞歸神經網絡或卷積神經網絡對句子進行表征建模,從海量訓練數(shù)據(jù)中抽取語義信息,與基于短語的統(tǒng)計翻譯相比,其翻譯結果更加流暢自然,在實際應用中取得了較好的效果。
2.語義理解
語義理解是指利用計算機技術實現(xiàn)對文本篇章的理解,并且回答與篇章相關問題的過程。語義理解更注重于對上下文的理解以及對答案精準程度的把控。隨著MCTest數(shù)據(jù)集的發(fā)布,語義理解受到更多關注,取得了快速發(fā)展,相關數(shù)據(jù)集和對應的神經網絡模型層出不窮。語義理解技術將在智能客服、產品自動問答等相關領域發(fā)揮重要作用,進一步提高問答與對話系統(tǒng)的精度。
在數(shù)據(jù)采集方面,語義理解通過自動構造數(shù)據(jù)方法和自動構造填空型問題的方法來有效擴充數(shù)據(jù)資源。為了解決填充型問題,一些基于深度學習的方法相繼提出,如基于注意力的神經網絡方法。當前主流的模型是利用神經網絡技術對篇章、問題建模,對答案的開始和終止位置進行預測,抽取出篇章片段。
微視角
對于進一步泛化的答案,處理難度進一步提升,目前的語義理解技術仍有較大的提升空間。
3.問答系統(tǒng)
問答系統(tǒng)分為開放領域的對話系統(tǒng)和特定領域的問答系統(tǒng)。問答系統(tǒng)技術是指讓計算機像人類一樣用自然語言與人交流的技術。人們可以向問答系統(tǒng)提交用自然語言表達的問題,系統(tǒng)會返回關聯(lián)性較高的答案。盡管問答系統(tǒng)目前已經有了不少應用產品出現(xiàn),但大多是在實際信息服務系統(tǒng)和智能手機助手等領域中的應用,在問答系統(tǒng)魯棒性方面仍然存在著問題和挑戰(zhàn)。
自然語言處理面臨圖2-9所示的四大挑戰(zhàn)。

圖2-9 自然語言處理面臨的挑戰(zhàn)