- 自然語言處理導論
- 張奇等
- 2773字
- 2023-11-17 16:47:03
1.1.1 自然語言處理簡史
自然語言處理的研究歷史可以追溯到1947年,當時第一臺通用計算機ENIAC剛剛面世一年,Warren Weaver就提出了利用計算機翻譯人類語言的可能,并于1949年發(fā)表了著名的Trans-lation(《翻譯》)備忘錄。1950年,Alan Turing發(fā)表了著名的具有劃時代意義的論文ComputingMachinery and Intelligence(《計算機器與智能》)[2],提出了使用圖靈測試(Turing Test)對機器是否具有智能進行評測,即:如果一臺機器能夠與人類展開對話而不能被辨別出其機器身份,那么這臺機器就具有智能。1951年,語言學家Yehoshua Bar-Hillel在麻省理工學院開始了機器翻譯研究。1954年,喬治城大學(Georgetown University)與IBM合作的機器翻譯演示系統(tǒng)將60多個俄語句子翻譯成了英文。當時,研究者們期望通過三五年的時間完全解決機器翻譯問題。20世紀50年代初是自然語言處理的萌芽期。自然語言處理簡史的時間線如圖1.1所示。大體來看,自然語言處理經(jīng)歷了20世紀50年代末到60年代的初創(chuàng)期、20世紀70年代到80年代的理性主義時代、20世紀90年代到21世紀初的經(jīng)驗主義時代,以及2006年至今的深度學習時代。

圖1.1 自然語言處理簡史的時間線
20世紀50年代末到60年代,大量的研究不斷涌現(xiàn),并且形成了兩大流派:符號學派(Sym-bolic)和隨機學派(Stochastic)。以美國語言學家Noam Chomsky為代表的符號學派提出了形式語言理論,基于1957年出版的Syntactic Structures(《句法結(jié)構(gòu)》)介紹了生成語法的概念,并提出了一種特定的生成語法,被稱為轉(zhuǎn)換語法,開啟了使用數(shù)學方法研究語言的先河。隨機學派則以1959年Bledsoe和Browning將貝葉斯方法(Bayesian Method)應(yīng)用于字符識別問題為代表,試圖通過貝葉斯方法來解決自然語言處理中的問題。這期間計算語言學(Computational Linguistics)概念也被正式提出。1962年,美國成立了機器翻譯和計算語言學學會(Association for Machine Translation and Computational Linguistics)。1965年,國際計算語言學委員會(The International Committee on Computational Linguistics,ICCL)成立,并于當年召開了第一屆國際計算語言學大會(The International Conference on Computational Linguistics,COLING)。20世紀60年代還出現(xiàn)了第一個大規(guī)模語料庫——布朗美國英語語料庫(Brown Corpus),其包含來自不同文體的500多篇書面文本,超過100萬個單詞,涉及新聞、小說、科技文化等。自此,自然語言處理研究全面開啟。
20世紀70年代到80年代,更多的工作從不同的角度開展了系統(tǒng)的研究,也產(chǎn)生了一系列的研究范式,至今仍對自然語言處理研究起著重要作用。這些范式主要包括:基于邏輯的范式(Logic-based Paradigm)、基于規(guī)則的范式(Rule-based Paradigm)和隨機范式(Stochastic Paradigm)。1970年,Colmerauer等人使用邏輯方法研制出Q系統(tǒng)(Q-system)和變形語法(Metamorphosis Grammar),并在機器翻譯中得到應(yīng)用。1980年,Pereira和Warren提出的定子句語法(Definite Clause Grammar)是基于邏輯的范式成功應(yīng)用的范例之一。基于規(guī)則的范式是這個時代最典型的模式之一,1972年研制的SHRDLU系統(tǒng)是其中的一個代表性工作。該系統(tǒng)模擬了一個玩具積木世界,能夠接收自然語言的書面指令(如Pick up a big red block.),指揮機器人移動玩具積木塊。1970年,William A. Woods提出了擴充轉(zhuǎn)移網(wǎng)絡(luò)(Augmented Transition Network)用來描述自然語言輸入,并用于自然語言處理的若干任務(wù)中。得益于20世紀80年代初隱馬爾可夫模型(Hidden Markov Model)和噪聲信道與解碼模型(Noisy Channel Model and Decoding Model)在語音識別中的成功應(yīng)用,隨機范式也逐漸在自然語言處理任務(wù)中嶄露頭角,包括詞性標注[3]、姓名檢索[4]等。
從20世紀90年代開始,自然語言處理開啟了繁榮發(fā)展的時代。自1989年在機器翻譯任務(wù)中引入語料庫方法之后,這種建立在大規(guī)模真實語料上的研究方法將自然語言處理研究推向了新的高度。從90年代后期開始,基于機器學習和數(shù)據(jù)驅(qū)動的方法取代了早期基于規(guī)則和基于邏輯的方法,成為自然語言處理的標準模式。自然語言處理的各類任務(wù),包括詞法分析、詞性標注、句法分析、文本分類、機器翻譯等都開始引入機器學習算法。這期間樸素貝葉斯(Naive Bayes)[5]、K近鄰(K-Nearest Neighbor)[6]、支持向量機(Support Vector Machine,SVM)[7]、最大熵模型(Maximum Entropy,ME)[8]、神經(jīng)網(wǎng)絡(luò)(Neural Network)[9]、條件隨機場(Conditional Random Field)[10]、感知機(Perceptron)[11]等方法也都在自然語言處理的不同任務(wù)上進行了嘗試并取得了一定的成功。這種以大規(guī)模數(shù)據(jù)為基礎(chǔ)進行分析的方法被稱為經(jīng)驗主義(Empiricism)。隨著數(shù)據(jù)驅(qū)動方法的發(fā)展,大部分關(guān)于自然語言處理的早期理論都大打折扣,特別是隨著數(shù)據(jù)量的不斷增加以及計算能力的不斷提高,而經(jīng)驗主義方法直到現(xiàn)在也還在主導著自然語言處理領(lǐng)域。從當前自然語言處理領(lǐng)域重要會議EMNLP(Empirical Methods in Natural Language Processing)的名稱和發(fā)展也可以看到經(jīng)驗主義的發(fā)展過程。
2006年,加拿大多倫多大學教授Geoffery Hinton和他的學生Ruslan Salakhutdinov在Sci-ence(《科學》)雜志上發(fā)表了關(guān)于基于深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)以及無監(jiān)督預(yù)訓練結(jié)合有監(jiān)督訓練微調(diào)的方法解決深層神經(jīng)網(wǎng)絡(luò)訓練中梯度消失問題的論文[12],將神經(jīng)網(wǎng)絡(luò)重新拉回到機器學習研究者的視野中。2012年,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的AlexNet在圖像識別領(lǐng)域的ImageNet競賽中取得驚人的效果,掀起了深度學習在學術(shù)界和工業(yè)界的浪潮[13]。2011年,論文Natural language processing(almost)from scratch引起了極大的關(guān)注,深度神經(jīng)網(wǎng)絡(luò)在不使用人工特征的情況下,使用一個統(tǒng)一的網(wǎng)絡(luò)架構(gòu),在詞性標注、組塊分析、命名實體識別、語義角色標注等任務(wù)中都取得了很好的效果[14]。2014年,Seq2Seq(序列到序列)模型[15]在機器翻譯任務(wù)上取得了非常好的效果,并且完全不依賴任何人工特征,推動了神經(jīng)機器翻譯的廣泛落地。使用這種端到端的方式進行編碼和解碼不僅在包括生成式摘要[16]、對話系統(tǒng)[17-18]等在內(nèi)的自然語言生成問題上取得了突破,還被應(yīng)用于自然語言處理的很多任務(wù)中,包括句法分析[19]、問題回答[20]、中文分詞[21]等。此外,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[22]、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)[23]、遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)[24]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[25]、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[26-27]等神經(jīng)網(wǎng)絡(luò)模型也都被成功應(yīng)用于自然語言處理的各個任務(wù)中。
2018年,美國艾倫人工智能研究所(Allen Institute for AI)和華盛頓大學(Washington Uni-versity)聯(lián)合發(fā)表的論文中提出了名為ELMo的與上下文相關(guān)的文本表示方法,其首先利用語言模型或其他自監(jiān)督任務(wù)進行預(yù)訓練,然后在處理下游任務(wù)時,從預(yù)訓練的網(wǎng)絡(luò)中提取對應(yīng)詞的網(wǎng)絡(luò)各層的詞嵌入作為新特征補充到下游任務(wù)中。它在多個自然語言處理任務(wù)上的表現(xiàn)都非常突出[28]。此后,深度學習開啟了預(yù)訓練模型(Pre-trained Model,PTM)結(jié)合任務(wù)微調(diào)的新范式。谷歌、Ope-nAI、微軟、清華大學、百度、智源研究院等先后提出了BERT[29]、GPT[30]、XLNet[31]、ERNIE(THU)[32]、ERNIE(Baidu)[33]、悟道等大規(guī)模預(yù)訓練模型,在幾乎所有的自然語言處理任務(wù)上都取得了非常好的效果,甚至在很多任務(wù)的標準評測集合上也取得了超越人類準確率的水平。尤其是在類似于閱讀理解、常識推理等的任務(wù)上有驚人的效果提升。與此同時,預(yù)訓練模型的規(guī)模也越來越大,2018年谷歌開發(fā)的BERT-Base模型有1.1億個參數(shù),BERT-Large模型有3.4億個參數(shù)。到了2019年,OpenAI開發(fā)的GPT-2模型就達到了15億個參數(shù)。2021年GPT-3模型的參數(shù)更是達到了1750億個,而同年谷歌開發(fā)的Switch Transformer模型的參數(shù)首次超過萬億個,達到了1.6萬億個。此后不久,北京智源人工智能研究院發(fā)布的“悟道2.0”模型就刷新了上述紀錄,模型參數(shù)達到了1.75萬億個。雖然預(yù)訓練大模型取得了巨大的成功,但是其仍然面臨模型的穩(wěn)健性亟待提升、超大規(guī)模的模型如何高效適配下游任務(wù)、大模型的理論解釋等諸多問題。
- 類腦智能:大腦情感學習模型的應(yīng)用研究
- 物聯(lián)網(wǎng)+智能家居:移動互聯(lián)技術(shù)應(yīng)用
- GPTs在游戲行業(yè)中的應(yīng)用與實踐(智能系統(tǒng)與技術(shù)叢書)
- 人工智能實戰(zhàn)進階導引
- 人工智能算法基礎(chǔ)
- 智能化社會:未來人們?nèi)绾紊睢⑾鄲酆退伎?/a>
- 革新:科技改變生活
- 破解深度學習(基礎(chǔ)篇):模型算法與實現(xiàn)
- IBM商業(yè)價值報告:認知計算與人工智能
- 洞見未來的“元宇宙”世界(套裝8冊)
- AI虛擬仿真從入門到參賽
- 寫好論文:思維模型與AI輔助應(yīng)用
- Python機器學習入門與實戰(zhàn)
- 深度學習:導讀手冊
- 高效用DeepSeek:職場逆襲的實戰(zhàn)指南