官术网_书友最值得收藏!

1.3 基于神經網絡的自然語言處理

伴隨著人工智能發展歷程的起起落落,自然語言處理在長達半個多世紀的發展過程中曾經歷了以基于規則方法為主的理性主義與基于統計方法為主的經驗主義之爭,現階段已形成了理性主義方法與經驗主義技術相輔相成、互相融合發展的趨勢。近年來,隨著深度學習熱潮的到來,強大的學習機制在一定程度上緩解了原有自然語言處理方法的數據稀疏問題,吸引了眾多研究者的關注,自然語言智能處理開始進入基于深度學習的時代。圖1-2概要展示了幾十年來,自然語言處理的發展歷程。

img

圖1-2 自然語言處理的發展歷程

神經網絡源自模擬類腦計算,是機器學習的重要分支,可以為語言智能處理提供強大的學習能力。神經網絡模型以其自身的優越性,為語言智能處理的很多核心任務和領域帶來革新性的解決方案,廣泛應用于諸多任務場景,極大地促進了自然語言處理的發展,在算力、數據、技術等各種要素的支持下,語言智能處理迎來了蓬勃發展的黃金時代,基于深度學習的語言智能處理的研究取得了越來越多的可喜進展。

從圖1-3可以看到,從2001年到2018年,基于神經網絡的自然語言處理出現了包括神經網絡語言模型、詞向量、注意力機制和預訓練語言模型等一系列具有重要影響力和代表性的里程碑式的成果。這些成果深刻影響著語言智能處理的研究方法和未來的發展方向,極大地推動了語言智能處理技術的革新和實用系統的落地。

img

圖1-3 基于神經網絡自然語言處理的重要里程碑成果

下面以語言智能處理領域的部分重要會議相關信息為引,一窺本領域的技術發展趨勢。

語言智能處理領域的重要國際會議包括國際計算語言學大會(ACL)、自然語言處理實證方法大會(EMNLP)、歐洲計算語言學大會(EACL)和北美計算語言學大會(NAACL)等。從2012年到2017年,在這幾個重要會議錄用的論文中,與深度學習主題相關論文的占比呈顯著上升態勢,2012年占比為30%~40%,2017年占比上升為60%~70%。

近幾年,基于深度學習的自然語言智能處理論文的增速迅猛,體現了深度學習在該領域的“熱度”。

以NLP領域頂級的ACL大會為例,從1999年到2019年,ACL大會每年的投稿數量、審稿人數量和領域主席的數量一直呈現增長趨勢[1]

1999年到2007年,這段時間的數據變化比較平緩,投稿數量由293篇上升到588篇,審稿人數由210人上升到332人,領域主席由6人上升到10人。

2007年到2012年,這段時間的數據變化開始加快,投稿數量由588篇上升到940篇,審稿人數由332人上升到665人,領域主席由10人上升到20人。

2012年到2019年,這段時間的數據劇烈上升,投稿數量由940篇上升到2906篇,審稿人數由665人上升到2281人,領域主席由20人上升到230人。

特別是近年來,投稿數量激增,2019年的投稿數量幾乎是2018年的兩倍。

從投稿領域來看,ACL大會的投稿范圍涉及理論和應用等20余個研究方向,每個類別幾乎都涉及了深度學習和神經網絡模型,反映了深度學習方法在自然語言處理中的重要性。這些研究在一定程度上代表了目前語言智能處理的熱門研究方向和前沿技術發展態勢。

在ACL 2020大會上,投稿的研究主題包括[2]

●機器學習;

●對話和交互系統;

●機器翻譯;

●信息抽取;

●自然語言處理應用;

●文本生成;

●情感分析;

●自動問答;

●資源及評價;

●自動摘要;

●社交科學和媒體計算;

●語義:句子級別;

●NLP模型分析和可解釋性;

●語義:詞匯級別;

●信息檢索和文本挖掘;

●語義:文本推斷和其他語義領域;

●語言融入視覺、機器人學及其他;

●話題模型;

●認知模式和心理語言學;

●語音和多模態;

●句法:標注、詞塊、語法分析;

●交叉學科;

●話語和語用學;

●音素學、形態學、分詞;

●倫理及NLP。

主站蜘蛛池模板: 会泽县| 凌海市| 陆良县| 北碚区| 嘉定区| 元阳县| 根河市| 宁都县| 望谟县| 武清区| 增城市| 花莲县| 七台河市| 广元市| 丁青县| 九龙县| 镇巴县| 库尔勒市| 永昌县| 长子县| 伊通| 岳普湖县| 岐山县| 江北区| 龙海市| 镇赉县| 武安市| 大理市| 兴安县| 福建省| 垣曲县| 从化市| 顺义区| 香河县| 乐至县| 湘潭市| 正镶白旗| 哈巴河县| 禹州市| 阿拉善左旗| 黔南|