- Transformer自然語言處理實(shí)戰(zhàn):使用Hugging Face Transformers庫構(gòu)建NLP應(yīng)用
- (澳)路易斯·湯斯頓等
- 455字
- 2024-05-23 17:22:18
第1章
歡迎來到Transformer的世界
2017年,Google的研究人員發(fā)表了一篇論文,提出了一種用于序列建模的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)[1]。這種架構(gòu)稱為Transformer,在機(jī)器翻譯任務(wù)上,該架構(gòu)在翻譯質(zhì)量和訓(xùn)練成本方面都優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。
同時(shí),一種名為ULMFiT的高效遷移學(xué)習(xí)方法表明,在非常龐大且多樣化的語料庫上訓(xùn)練長短期記憶(LSTM)網(wǎng)絡(luò)可以產(chǎn)生最先進(jìn)的文本分類器,并且只需要很少的標(biāo)注數(shù)據(jù)[2]。
這些研究催生了如今兩個(gè)最著名的Transformer模型類別:生成預(yù)訓(xùn)練Transformer(Generative Pretrained Transformer,GPT)[3]和基于Transformer的雙向編碼器表示(Bidirectional Encoder Representations from Transformers,BERT)[4]。通過將Transformer架構(gòu)與無監(jiān)督學(xué)習(xí)相結(jié)合,不需要從頭開始訓(xùn)練這些模型即可完成特定任務(wù),并打破了幾乎所有NLP基準(zhǔn)。自GPT和BERT發(fā)布以來,涌現(xiàn)了很多Transformer模型,具體模型和時(shí)間線如圖1-1所示。
要想更上一層樓,我們不僅需要知其然,還需要知其所以然。因此我們需要先解釋一下如下概念:

圖1-1:Transformer大事記
●編碼器-解碼器框架
●注意力機(jī)制
●遷移學(xué)習(xí)
本章我們將介紹通用于所有Transformer模型的核心概念,講述它們擅長的任務(wù),最后介紹由對(duì)應(yīng)工具和庫組成的Hugging Face生態(tài)系統(tǒng)。
我們先從編碼器-解碼器框架和Transformer興起之前的架構(gòu)開始。
- 現(xiàn)代企業(yè)應(yīng)用設(shè)計(jì)指南
- EJB 3.0 Database Persistence with Oracle Fusion Middleware 11g: LITE
- 輕松玩轉(zhuǎn)3D One AI
- GlassFish Administration
- 綁定的藝術(shù):Maya高級(jí)角色骨骼綁定技法(第2版)
- SPSS統(tǒng)計(jì)分析
- 虛擬現(xiàn)實(shí):沉浸于VR夢(mèng)境
- Maya 2020 超級(jí)學(xué)習(xí)手冊(cè)
- 數(shù)碼攝影后期密碼Photoshop CC調(diào)色秘籍(第2版)
- Origin科技繪圖與數(shù)據(jù)分析
- AI設(shè)計(jì)時(shí)代:Midjourney實(shí)戰(zhàn)應(yīng)用手冊(cè)
- Photoshop 2021中文版入門、精通與實(shí)戰(zhàn)
- 中文版Premiere Pro 2022基礎(chǔ)教程
- Pluggable Authentication Modules: The Definitive Guide to PAM for Linux SysAdmins and C Developers
- 48小時(shí)精通CREO Parametric 3.0中文版鈑金設(shè)計(jì)技巧