官术网_书友最值得收藏!

前言

時光荏苒,自2003年我師從吳立德教授,開啟了自然語言處理學習與研究之路,轉眼已近二十載春秋?;叵氘斈甑谝淮温牭阶匀徽Z言處理的目標——“讓機器理解人類語言”時的興奮,第一次看到《大規模中文文本處理》教材時的茫然,仿佛黃萱菁教授對我研究生入學的電話面試就在昨天,每周與吳老師固定交流前的緊張感依然清晰。從求學到任教,我深刻感受到自然語言處理的快速發展,從基于特征的統計機器學習方法到深度神經網絡模型,再到大規模預訓練方法,自然語言處理研究范式的更新迭代速度也在不斷加快。在本科生和研究生的自然語言處理課程教學過程中,雖然通過不斷補充國內外的近期研究進展,將最新的理論與方法通過課件和面授的形式介紹給同學們,但是系統、全面的書籍仍然是不可或缺的重要資料。于是,自2020年起,我與黃萱菁教授和桂韜副研究員一起開始本書的準備工作。在經過幾十次的討論,以及對大綱和結構的反復修改后,自2021年暑假起開始了本書的寫作。2022年,本書入選復旦大學七大系列百本精品教材項目和復旦大學研究生規劃系列教材項目,進一步督促我們加快進度。從規劃開始,歷時近三年之久,這本拙作終于完成。

自然語言處理研究融合了語言學、計算機科學、機器學習等多學科內容。自然語言處理的研究內容,從語言單位上劃分,涵蓋字、詞、短語、句子、段落、篇章等不同粒度;從類型上劃分,包含處理、理解、生成等不同種類。研究內容涉及的知識點多且復雜。自然語言處理研究大體經歷了20世紀50年代末到80年代基于規則的研究范式、20世紀90年代到2010年前基于特征的統計機器學習研究范式、2010年到2018年基于深度神經網絡的研究范式,以及2018年至今基于大規模和超大規模預訓練模型的研究范式等幾個階段。每個階段的研究范式都有非常鮮明的特點,但也與機器學習研究有著十分緊密的聯系。自然語言處理研究內容繁雜以及與機器學習方法交織,導致本書的寫作難度遠超最初的預想。由于很多自然語言處理任務都被轉換為機器學習問題,因此很多機器學習算法可以被應用于多個自然語言處理任務。例如,條件隨機場模型可以用于中文分詞,也可以用于詞性標注,還可以用于命名實體識別。在這些任務中,條件隨機場模型也都取得了不錯的效果。我們花費大量的時間討論如何設計本書的結構,在避免重復的同時,能夠使讀者更好地了解更多的自然語言處理的研究內容和算法。

本書的目標是介紹自然語言處理的基本任務和主要處理算法。為了能夠讓讀者更好地了解任務的特性和算法設計的主要目標,在介紹每個自然語言處理任務時,除了介紹任務的目標,還會介紹該任務所涉及的主要語言學理論知識以及任務的主要難點。針對自然語言處理歷史發展過程中的不同研究范式,選擇不同類型的算法進行介紹。因此,在大多數情況下,每個章節都分為如下幾個部分:任務概述、相關語言學知識、基于規則的方法、基于特征的機器學習方法、基于深度神經網絡的算法、任務評測指標和常見的數據集合。針對同一種機器學習算法可以被應用于不同任務的問題,為了避免重復,我們在不同的任務中選擇同一類別的不同機器學習算法進行介紹,并說明該算法還可以被應用于哪些任務,以及該類型的任務應該采用哪種類別的機器學習算法。盡量使讀者能夠建立起自然語言處理任務和機器學習算法之間的關系,即如何將自然語言處理任務轉換為機器學習問題,如何選擇合適的機器學習算法,如何根據任務特性設計機器學習算法。希望讀者通過閱讀本書,能夠了解不同任務的難點和算法設計的要點,明確自然語言處理方法和機器學習算法之間的關系。雖然我們在這個問題上花費了大量的時間對本書的結構進行設計,但是對于初學者來說,這仍然是需要相當多的實踐才能更深入領悟的部分。

本書主要面向高年級本科生和研究生,作為自然語言處理相關課程教材使用,也可以作為對自然語言處理感興趣的讀者入門之用。在撰寫本書的過程中,盡量平衡學生的知識儲備水平與內容完備性之間的關系。在內容選擇上,主要針對計算機和人工智能領域學生的基礎知識特點,對語言學理論的介紹略顯單薄,在語言學理論內容的選擇上也偏重經典,對不同語言學理論之間的關系以及最新的語言學前沿研究的介紹較為缺乏。對于有志于從事自然語言處理研究的讀者,可以進一步拓展閱讀語言學相關領域知識。由于很多自然語言處理任務都被轉換為機器學習問題,采用各種類別的統計機器學習算法進行解決,因此本書的介紹必然涉及機器學習中的模型選擇、學習準則設定以及優化算法使用等問題。本書在介紹相關算法時,以如何將特定自然語言處理任務轉換為機器學習問題為重點,對于優化算法選擇等基礎問題需要讀者參考機器學習和深度學習的書籍。建議讀者在閱讀本書前,系統地學習機器學習和深度學習的相關課程。

在內容組織方面,本書主要包含基礎技術、核心技術和模型分析三個部分。基礎技術部分主要介紹自然語言處理的基礎任務和底層技術,主要包含詞匯分析、句法分析、語義分析、篇章分析和語言模型。核心技術部分主要介紹自然語言處理的應用任務和相關技術,主要包含信息抽取、機器翻譯、情感分析、智能問答、文本摘要、知識圖譜。模型分析部分主要介紹基于機器學習的自然語言處理模型的穩健性和可解釋性問題。在教學課時安排上,可以滿足32~56學時的教學安排。模型穩健性和模型可解釋性是近年來人工智能領域的研究熱點,但是也涉及各類自然語言處理任務和模型,需要讀者花費更多的時間在相關任務實踐中學習。

本書的寫作過程得到了眾多專家和同學的大力支持與幫助。特別感謝張翀博士、馬若恬博士、周鑫博士、趙君博士、周杰博士、費子楚博士、鄒易澄博士、王梟博士、鄭銳博士為本書的撰寫提供的幫助。盡管從本書的提綱結構討論開始,我們就保持著最嚴肅認真的態度,但越是臨近本書付梓之際,越是惶恐不安。自然語言處理涉及文理工多學科交叉,研究內容又極其繁雜,受限于我們的認知水平和所從事的研究工作的局限性,對其中一些任務和工作的細節理解可能存在不少錯誤,也懇請專家、讀者批評指正,你們的意見對我們非常重要。

最后,衷心地感謝我的導師吳立德教授,他不僅帶領我走進了自然語言處理之門,更重要的是,他嚴謹求真的治學態度和高瞻遠矚的研究視野使我受益終身。感激我的家人給予的支持,為了能夠提供給我專心寫作的環境,他們承擔了幾乎全部孩子教育、家務等煩瑣而辛苦的事務,才使我能夠完成本書的寫作。他們默默地犧牲了自己的休息時間甚至是事業,才讓我可以任性地追求自己的夢想。欲報之德,昊天罔極。

張奇

2023年1月于復旦大學曦園

主站蜘蛛池模板: 郁南县| 北京市| 龙陵县| 泗水县| 河北区| 永泰县| 安仁县| 河池市| 淮北市| 历史| 图们市| 迭部县| 尉氏县| 莒南县| 开原市| 花莲市| 台南县| 麦盖提县| 曲阜市| 本溪市| 屯留县| 青浦区| 子长县| 昭通市| 南昌县| 伊宁市| 衡山县| 克什克腾旗| 梧州市| 沙田区| 绥宁县| 增城市| 防城港市| 黑水县| 乌鲁木齐县| 三江| 集贤县| 文昌市| 福鼎市| 余干县| 万安县|