官术网_书友最值得收藏!

第1章
歡迎來到Transformer的世界

2017年,Google的研究人員發(fā)表了一篇論文,提出了一種用于序列建模的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)[1]。這種架構(gòu)稱為Transformer,在機(jī)器翻譯任務(wù)上,該架構(gòu)在翻譯質(zhì)量和訓(xùn)練成本方面都優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。

同時(shí),一種名為ULMFiT的高效遷移學(xué)習(xí)方法表明,在非常龐大且多樣化的語料庫上訓(xùn)練長短期記憶(LSTM)網(wǎng)絡(luò)可以產(chǎn)生最先進(jìn)的文本分類器,并且只需要很少的標(biāo)注數(shù)據(jù)[2]

這些研究催生了如今兩個(gè)最著名的Transformer模型類別:生成預(yù)訓(xùn)練Transformer(Generative Pretrained Transformer,GPT)[3]和基于Transformer的雙向編碼器表示(Bidirectional Encoder Representations from Transformers,BERT)[4]。通過將Transformer架構(gòu)與無監(jiān)督學(xué)習(xí)相結(jié)合,不需要從頭開始訓(xùn)練這些模型即可完成特定任務(wù),并打破了幾乎所有NLP基準(zhǔn)。自GPT和BERT發(fā)布以來,涌現(xiàn)了很多Transformer模型,具體模型和時(shí)間線如圖1-1所示。

要想更上一層樓,我們不僅需要知其然,還需要知其所以然。因此我們需要先解釋一下如下概念:

圖1-1:Transformer大事記

●編碼器-解碼器框架

●注意力機(jī)制

●遷移學(xué)習(xí)

本章我們將介紹通用于所有Transformer模型的核心概念,講述它們擅長的任務(wù),最后介紹由對(duì)應(yīng)工具和庫組成的Hugging Face生態(tài)系統(tǒng)。

我們先從編碼器-解碼器框架和Transformer興起之前的架構(gòu)開始。

主站蜘蛛池模板: 陇南市| 巍山| 海晏县| 新巴尔虎右旗| 康马县| 盐边县| 工布江达县| 峨眉山市| 安泽县| 湘阴县| 河池市| 九龙坡区| 襄樊市| 上栗县| 天台县| 无棣县| 深州市| 嘉义县| 文山县| 福贡县| 密山市| 平凉市| 桦南县| 宝清县| 璧山县| 崇仁县| 土默特左旗| 丰都县| 东阳市| 报价| 哈尔滨市| 外汇| 赤壁市| 南通市| 沛县| 华坪县| 澜沧| 呼伦贝尔市| 垫江县| 汉寿县| 三亚市|