書名：自然語言處理導論
作者名：張奇等
本章字數： 1116字
更新時間： 2023-11-17 16:47:01

序

很高興為張奇教授、桂韜副研究員、黃萱菁教授合著的《自然語言處理導論》一書寫序。

隨著ChatGPT面世并迅速風靡全球，AI又一次進入尋常百姓家。而ChatGPT的一個重要支持正是自然語言處理中的大規模語言模型GPT。

所謂“自然語言”指的就是人們日常使用的語言，如中文、英文等1。形象地說，自然語言處理研究的就是如何讓計算機能夠像人類一樣，具有使用自然語言的能力，能與人類用自然語言進行交流。

由于自然語言是人類最方便、最重要的交流方式，是描述知識、傳承文化的重要工具，因此對自然語言處理的研究幾乎從計算機一出現就開始了。這一領域也一直是人工智能研究的重要分支。自然語言處理的發展歷史悠久，涉及的面很廣，積累了大量的成果，但這些成果分散在多個領域。因此，一本全面、系統介紹自然語言處理的書是非常必要的。寫這樣的書也是一項艱巨的任務，需要從大量已有成果中篩選出既有代表性，又能全面反映領域發展全貌的材料，并將它們合理地組織起來。

本書作者長期從事自然語言處理方面的教學和科研工作，積累了豐富的經驗，用了近三年時間對內容和結構進行多次討論和修改，終于在2023年初完成初稿。

本書共14章，分為3個部分：基礎技術、核心技術和模型分析。第1部分討論的是語言學中的問題，按處理對象粒度從小到大，依次為詞匯分析、句法分析、語義分析、篇章分析和語言模型。第6章“語言模型”有關于ChatGPT的基礎GPT的介紹和ChatGPT實現過程的介紹。第2部分介紹自然語言處理的主要應用及相應的技術，包括信息抽取、機器翻譯、情感分析、智能問答、文本摘要和知識圖譜。第3部分為模型分析，主要介紹模型穩健性和模型可解釋性。

本書以問題或任務為主線進行講解，讓讀者更好地了解同一類問題可以從不同的視角、用不同的方法解決。通過比較這些方法的優劣加深對任務和方法的理解，并提升鑒賞能力及舉一反三能力。

從結果來看，基于大規模語言模型的機器學習方法在幾乎所有自然語言處理任務上都取得了很好的效果，有些甚至超過了人類水平，因而已成為當前的主流方法。但這種基于大模型的方法也有它自身的局限性。一個明顯的問題是它的參數極多，目前已高達數千億個，人們極難理解這些參數的含義。結果雖好，但難以理解和解釋。另外，有些精度很高的大模型，僅改變它的幾個參數，就會使它的性能下降很多。換言之，不穩健。上述兩點正是本書第3部分要介紹的內容，即模型的穩健性和可解釋性。

總之，自然語言處理是人工智能的重要組成部分。本書全面系統地介紹了自然語言處理的基礎概念、任務和方法，可作為高校相關專業高年級學生和研究生的教材，也可供對這一領域感興趣的讀者參考。

由ChatGPT引起的AI熱潮還在繼續，隨著大量人力、物力的投入，AI研究和應用的又一個春天正在到來。

吳立德

復旦大學首席教授

2023年3月10日

官术网_书友最值得收藏!

自然語言處理導論

序