1.1 自然語言處理的基本概念
語言是人類與其他動物最重要的區別,而人類的多種智能也與此密切相關。邏輯思維以語言的形式表達,大量的知識也以文字的形式記錄和傳播。如今,互聯網上已經擁有數萬億個網頁資源,其中大部分信息都是以自然語言描述的。因此,如果人工智能想要獲取知識,就必須懂得如何理解人類使用的不太精確、可能有歧義、混亂的語言。
自然語言處理的目標就是實現人機之間的有效通信,這意味著要使計算機能夠理解自然語言的意義,也能以自然語言文本來表達給定的意圖、思想等[1]。前者稱為自然語言理解(Natural Language Understanding,NLU),后者稱為自然語言生成(Natural Language Generation,NLG)。需要說明的是,自然語言處理、自然語言理解以及計算語言學這些概念并沒有嚴格統一的定義。本書采用吳立德教授在1997年所著的《大規模中文文本處理》中所給出的定義。無論是自然語言理解還是自然語言生成,目前都是開放性問題(Open Problem),通用的高精度、高穩健性自然語言處理系統還沒有解決方案,仍然需要長期研究。但是針對特定領域的應用,很多具有自然語言處理能力的系統已經有產業化應用,例如智能客服系統、機器翻譯系統、語音助手、電子郵件篩選、新聞寫作、智慧教育、司法輔助等。