- 自然語言處理導論
- 張奇等
- 1317字
- 2023-11-17 16:47:03
1.1.2 自然語言處理的主要研究內容
自然語言處理的研究內容十分龐雜,整體上可以分為基礎算法研究和應用技術研究。基礎算法研究又可以細分為自然語言理解和自然語言生成。從語言單位的角度來看,涵蓋了字、詞、短語、句子、段落、篇章等不同粒度。從語言學研究的角度來看,則涉及形態學、語法學、語義學、語用學等不同層面。此外,由于目前絕大多數自然語言處理算法都采用基于機器學習的方法,針對特定的自然語言處理任務,以有監督、無監督、半監督、強化學習等不同的機器學習算法為基礎進行構建。因此,自然語言處理研究又與機器學習和語言學的研究交織在一起,使得自然語言處理的研究內容涉及范圍廣,學科交叉度大。
自然語言處理研究與語言學密切相關,語言學研究可以被劃分為形態學、語法學、語義學、語用學等幾個層面。形態學(Morphology)主要研究詞的內部結構和構成方式。語法學(Syntax)主要研究句子、短語、詞等語法單位的語言結構與語法意義的規律。語義學(Semantics)主要研究語言的意義,目標是發現和闡述關于意義的知識。語用學(Pragmatics)是從使用者的角度來研究語言的,研究如何理解和使用一定的上下文環境下的語言。在實際的任務中,上述幾個層面的問題往往相互關聯,并不能完全獨立。語法結構分析需要詞匯形態學的支撐,語法結構也影響著詞匯的形態,語法結構和語義也是相互交織的,而下上文環境又對語義有重要的影響,因此,很多自然語言處理任務并不是完全獨立的。但是為了簡化任務處理的難度,通常在處理不同層面的任務時仍然需要獨立考慮。從自然語言處理研究內容的難度來看,從形態、語法、語義到語用是逐層遞增的。目前基于機器學習和深度學習的自然語言處理算法的處理主要集中在形態、語法、語義這三個層面,基于目前的處理框架,部分語義層面的任務仍較難突破,語用層面的任務難度更大,在該層面的研究相對較少。我們從語言單元粒度和語言學研究層次兩個維度,對自然語言處理的主要研究內容進行了歸類,如圖1.2所示。

圖1.2 自然語言處理的主要研究內容
自然語言處理在詞匯粒度下的研究內容主要包括:詞形分析、詞性標注、詞義消歧,分別針對詞的詞性、語法、語義開展研究。句法分析主要針對句子根據語法進行結構分析。篇章分析的核心是對篇章的連貫性和銜接性進行分析,涉及篇章級別的語法結構,同時也包含部分語義的內容。語義分析則涉及從詞匯、短語、句子到篇章等各個粒度。語言模型主要聚焦于句子粒度,但是也包含部分短語和篇章級別的研究。以上內容研究主要圍繞自然語言理解的基礎問題開展。自然語言生成則主要研究利用常識、邏輯和語法等知識自動生成文本,涉及形態、語法和語義的層面,同時也涵蓋從短語到篇章多個粒度。在自然語言處理的基礎研究內容之上,信息抽取、情感分析、文本摘要、機器翻譯、智能問答、知識圖譜等任務則圍繞自然語言處理的應用開展,所處理的語言單元也根據任務特性而不盡相同。
整體上看,自然語言處理的主要研究內容圍繞語言學基礎理論,在形態、語法、語義等層面開展自然語言理解基礎算法和自然語言生成基礎算法的研究。在此基礎上,圍繞自然語言處理的重要應用場景開展一系列的應用技術研究。這些研究內容也已經被深度應用于信息檢索、虛擬助理、推薦系統、量化交易、智能問診、精準醫療等眾多系統中。