- 機(jī)器閱讀理解:算法與實(shí)踐
- 朱晨光
- 2272字
- 2020-04-24 18:38:07
1.3 深度學(xué)習(xí)
深度學(xué)習(xí)是當(dāng)前人工智能中炙手可熱的研究領(lǐng)域。基于深度學(xué)習(xí)的模型在圖像識(shí)別、語音識(shí)別、自然語言處理等諸多應(yīng)用中大顯身手,大幅提高了模型的表現(xiàn)。當(dāng)前絕大多數(shù)的機(jī)器閱讀理解模型均是基于深度學(xué)習(xí)的。接下來介紹深度學(xué)習(xí)的特點(diǎn)和成功案例。
1.3.1 深度學(xué)習(xí)的特點(diǎn)
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,為什么能在眾多的機(jī)器學(xué)習(xí)模型中脫穎而出?究其根源,有以下幾個(gè)重要原因。
第一,深度學(xué)習(xí)具有很大的模型復(fù)雜度。深度學(xué)習(xí)基于人工神經(jīng)網(wǎng)絡(luò),而人工神經(jīng)網(wǎng)絡(luò)的一大特點(diǎn)是模型大小可控:即使是固定大小的輸入和輸出維度,也可以根據(jù)需求通過調(diào)整網(wǎng)絡(luò)層數(shù)、連接數(shù)、每層大小調(diào)控模型參數(shù)的數(shù)量。因此,深度學(xué)習(xí)易于增加模型復(fù)雜度(model complexity),從而更有效地利用海量數(shù)據(jù)。同時(shí),研究表明深度學(xué)習(xí)模型的準(zhǔn)確率可以隨著數(shù)據(jù)的增多而不斷增加(見圖1-2)。隨著機(jī)器閱讀理解領(lǐng)域的不斷發(fā)展,相關(guān)數(shù)據(jù)集越來越多,數(shù)據(jù)量也在不斷增大,這也使得深度學(xué)習(xí)成為閱讀理解中最常見的機(jī)器學(xué)習(xí)架構(gòu)。

圖1-2 深度學(xué)習(xí)模型在圖像識(shí)別任務(wù)COCO和PASCAL VOC2007上的準(zhǔn)確率。橫軸為訓(xùn)練數(shù)據(jù)規(guī)模,縱軸為準(zhǔn)確率
第二,深度學(xué)習(xí)強(qiáng)大的特征學(xué)習(xí)能力。在機(jī)器學(xué)習(xí)中,模型的表現(xiàn)很大程度上取決于如何學(xué)習(xí)數(shù)據(jù)的表示,即表征學(xué)習(xí)(representation learning)。傳統(tǒng)機(jī)器學(xué)習(xí)模型需要事先抽取對(duì)任務(wù)有重要作用的特征(feature)。在深度學(xué)習(xí)出現(xiàn)之前,特征抽取很大程度上是依靠人工完成的,并且依賴于領(lǐng)域?qū)<业慕?jīng)驗(yàn)。然而,深度學(xué)習(xí)依靠神經(jīng)網(wǎng)絡(luò)對(duì)于數(shù)據(jù)的非線性變換處理可以自動(dòng)地從原始特征中(如詞向量、圖片像素)學(xué)習(xí)得到有效的表示。由此可見,深度學(xué)習(xí)可以有效地自動(dòng)獲取對(duì)任務(wù)有幫助的特征,而不需要設(shè)計(jì)者具有相關(guān)領(lǐng)域的特殊知識(shí)。因此,使用深度學(xué)習(xí)的機(jī)器閱讀理解模型并不需要開發(fā)者絞盡腦汁地思考從文章和問題中抽取哪些特征,模型本身可以利用大數(shù)據(jù)自動(dòng)獲得高效的文本表示。
第三,深度學(xué)習(xí)可以實(shí)現(xiàn)端到端(end-to-end)的學(xué)習(xí)。很多機(jī)器學(xué)習(xí)模型采用流水線形式的多步驟解法,如學(xué)習(xí)特征→特征歸類→對(duì)每一類特征建立模型→合成預(yù)測結(jié)果。但是,這些步驟只能獨(dú)立優(yōu)化,很難進(jìn)行統(tǒng)一規(guī)劃以促進(jìn)任務(wù)最終指標(biāo)的提高。而且,一旦對(duì)其中一個(gè)步驟的模型進(jìn)行改進(jìn),很可能導(dǎo)致下游的步驟需要重新進(jìn)行訓(xùn)練,大大降低了使用效率。而深度學(xué)習(xí)的一大優(yōu)勢在于,可以利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的數(shù)據(jù)表征和處理能力實(shí)現(xiàn)端到端處理,即以原始數(shù)據(jù)作為輸入,直接輸出所需要的最終結(jié)果。這種處理方式可以統(tǒng)籌優(yōu)化所有參數(shù)以提高準(zhǔn)確率。例如,在機(jī)器閱讀理解中,模型以文章和問題文本作為輸入,可以直接輸出答案文本,這大大簡化了優(yōu)化的過程,也非常易于使用和部署。
第四,硬件的更新?lián)Q代,特別是GPU計(jì)算能力的不斷進(jìn)步。深度學(xué)習(xí)因?yàn)槟P鸵话爿^為龐大,計(jì)算效率成為制約其發(fā)展的重要因素。而圖形處理器(Graphics Processing Unit, GPU)技術(shù)的不斷改進(jìn)給深度學(xué)習(xí)發(fā)展帶來了極大的加速。與中央處理器CPU相比,GPU具有更強(qiáng)的浮點(diǎn)運(yùn)算能力、更快的存儲(chǔ)和讀寫速度,以及多核并行的特點(diǎn)。GPU在最近十余年間的發(fā)展也符合早期CPU的摩爾定律,即運(yùn)算速度和器件復(fù)雜度隨時(shí)間呈指數(shù)級(jí)增長。以NVIDIA公司、Google公司等為代表的GPU產(chǎn)業(yè)不斷推陳出新,并為深度學(xué)習(xí)開發(fā)專門的GPU和機(jī)型,促進(jìn)了整個(gè)深度學(xué)習(xí)領(lǐng)域的發(fā)展和其在工業(yè)界的落地。
第五,深度學(xué)習(xí)框架的出現(xiàn)和社區(qū)的繁榮。隨著TensorFlow、PyTorch、Keras等框架的出現(xiàn),神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)自動(dòng)優(yōu)化,并且框架中實(shí)現(xiàn)了絕大多數(shù)常用的網(wǎng)絡(luò)模塊,這使得深度學(xué)習(xí)開發(fā)的難度大大降低。與此同時(shí),深度學(xué)習(xí)社區(qū)蓬勃發(fā)展。每當(dāng)新的研究成果產(chǎn)生時(shí),都會(huì)有開發(fā)者第一時(shí)間實(shí)現(xiàn)、驗(yàn)證并開源模型,使得技術(shù)的普及應(yīng)用達(dá)到了前所未有的速度。學(xué)術(shù)論文平臺(tái)arXiv、代碼平臺(tái)GitHub等極大地方便了研究者和開發(fā)者之間的交流,也降低了深度學(xué)習(xí)的研究和實(shí)現(xiàn)門檻。例如,2018年9月自然語言處理的突破性研究成果BERT(參見第6章中的介紹)的論文和開源代碼面世之后,短短數(shù)月之內(nèi),借助BERT的網(wǎng)絡(luò)模型,機(jī)器閱讀理解競賽榜單SQuAD和CoQA的最好成績就被頻頻刷新(見圖1-3)。

圖1-3 機(jī)器閱讀理解競賽SQuAD 2.0的前三名均基于BERT
1.3.2 深度學(xué)習(xí)的成果
自深度學(xué)習(xí)問世以來取得了許多舉世矚目的成果,在語音、圖像、文本等多個(gè)領(lǐng)域均有非常優(yōu)異的表現(xiàn)。
2009年,深度學(xué)習(xí)之父Geoffrey Hinton在與微軟研究院合作期間,通過深度信念網(wǎng)絡(luò)(deep belief network)模型大幅提高了語音識(shí)別系統(tǒng)的準(zhǔn)確率,并很快由IBM、谷歌、科大訊飛等行業(yè)和學(xué)術(shù)團(tuán)體通過實(shí)驗(yàn)證實(shí)。這也是深度學(xué)習(xí)最早的成功案例之一。7年之后,微軟進(jìn)一步利用大規(guī)模深度學(xué)習(xí)網(wǎng)絡(luò)將語音識(shí)別系統(tǒng)的詞錯(cuò)率降低至5.9%,首次達(dá)到與專業(yè)速記員持平的水準(zhǔn)。
2012年,在ImageNet組織的大規(guī)模圖像識(shí)別競賽(ILSVRC2012)中,深度學(xué)習(xí)方法卷積神經(jīng)網(wǎng)絡(luò)AlexNet獲得了84.6%的Top-5準(zhǔn)確率,以超過第2名10個(gè)百分點(diǎn)的成績獲得冠軍。
2016年,斯坦福大學(xué)推出機(jī)器閱讀理解數(shù)據(jù)集SQuAD(Stanford Question Answering Dataset)。參賽模型需要閱讀500多個(gè)文章段落并回答十萬多條相關(guān)問題。短短一年后,Google提出的BERT預(yù)訓(xùn)練深度學(xué)習(xí)模型就達(dá)到了精確匹配87.4%、F1指標(biāo)93.2%的水平,一舉超越了人類的得分(精確匹配82.3%、F1指標(biāo)91.2%),引發(fā)了業(yè)界的熱議。
2018年,微軟研發(fā)的深度學(xué)習(xí)翻譯系統(tǒng)在中英文通用新聞報(bào)道測試集上首次達(dá)到與人工翻譯同等水平的翻譯質(zhì)量和準(zhǔn)確率。
這些成就從不同方面證明了深度學(xué)習(xí)模型強(qiáng)大的學(xué)習(xí)能力,也為其在產(chǎn)業(yè)界的落地打下了堅(jiān)實(shí)的基礎(chǔ)。然而,我們也應(yīng)該看到,深度學(xué)習(xí)仍存在著一些尚未解決的缺陷,如很多模型因其參數(shù)眾多而被稱為“黑盒模型”,即無法解釋它對(duì)于特定輸入產(chǎn)生輸出的原理,也很難針對(duì)特定錯(cuò)誤修改模型加以糾正。此外,深度學(xué)習(xí)模型還缺乏人類特有的推理、歸納與常識(shí)能力。這些都是科研的前沿問題。希望在不久的將來,更加強(qiáng)大的深度學(xué)習(xí)可以使計(jì)算機(jī)真正具有與人類一般的智能。
- Vulkan學(xué)習(xí)指南
- Adobe Photoshop 網(wǎng)頁設(shè)計(jì)與制作標(biāo)準(zhǔn)實(shí)訓(xùn)教程(CS5修訂版)
- IBM Lotus Notes 8.5 User Guide: LITE
- ERP沙盤模擬簡明教程
- 3ds Max 2014從入門到精通
- ADempiere 3.6 Cookbook
- Premiere視頻編輯項(xiàng)目教程:Premiere Pro 2020(微課版)
- Drupal: Creating Blogs, Forums, Portals, and Community Websites
- Photoshop CS6實(shí)戰(zhàn)基礎(chǔ)培訓(xùn)教程(全視頻微課版)
- 3dsMax 2018動(dòng)畫制作基礎(chǔ)教程(第4版)
- Photoshop移動(dòng)UI設(shè)計(jì)從入門到精通
- 中望3D從入門到精通
- AutoCAD 2022中文版從入門到精通(標(biāo)準(zhǔn)版)
- Photoshop+CorelDRAW 字體設(shè)計(jì)與創(chuàng)意:草圖/實(shí)現(xiàn)/包裝(微課版)
- Magento 1.3 Theme Design