官术网_书友最值得收藏!

1.1 ChatGPT的由來(lái)

2017年,谷歌大腦團(tuán)隊(duì)(Google Brain)在神經(jīng)信息處理系統(tǒng)大會(huì)上發(fā)表了一篇名為“Attention Is All You Need”的論文,并在這篇論文中首次提出了基于自我注意力(Self-Attention)機(jī)制的模型。在這篇論文面世之前,自然語(yǔ)言處理領(lǐng)域的主流模型是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是,能很好地處理具有時(shí)間序列的數(shù)據(jù),比如語(yǔ)言、股票、服務(wù)器的監(jiān)控參數(shù)等。正因如此,這種模型在處理較長(zhǎng)序列,例如長(zhǎng)文章、圖書(shū)時(shí),存在模型不穩(wěn)定或者模型過(guò)早停止有效訓(xùn)練的問(wèn)題。

在自我注意力機(jī)制論文發(fā)表之后,2017年誕生的Transformer模型(基于自我注意力機(jī)制的模型)能夠同時(shí)并行進(jìn)行數(shù)據(jù)計(jì)算和模型訓(xùn)練,訓(xùn)練時(shí)長(zhǎng)更短,模型具有可解釋性。最初的Transformer模型有6500萬(wàn)個(gè)可調(diào)參數(shù)。谷歌大腦團(tuán)隊(duì)使用多種公開(kāi)的語(yǔ)言數(shù)據(jù)集來(lái)訓(xùn)練這個(gè)模型,這些數(shù)據(jù)集包括2014年英語(yǔ)-德語(yǔ)機(jī)器翻譯研討班(Workshop on statistical Machine Translation,WMT)數(shù)據(jù)集、2014年英語(yǔ)-法語(yǔ)機(jī)器翻譯研討班數(shù)據(jù)集,以及賓夕法尼亞大學(xué)樹(shù)庫(kù)語(yǔ)言數(shù)據(jù)集的部分句組。谷歌大腦團(tuán)隊(duì)在論文中提供了模型的結(jié)構(gòu),任何人都可以用該結(jié)構(gòu)搭建模型并結(jié)合自己的數(shù)據(jù)進(jìn)行訓(xùn)練。

經(jīng)過(guò)訓(xùn)練,最初的Transformer模型在翻譯準(zhǔn)確度、英語(yǔ)語(yǔ)句成分分析等各項(xiàng)評(píng)分上都達(dá)到了業(yè)內(nèi)第一的水平,成為當(dāng)時(shí)最先進(jìn)的大型語(yǔ)言模型(Large Language Model,LLM)。

在正式介紹ChatGPT之前,我們先簡(jiǎn)單了解一下GPT。GPT代表生成式預(yù)訓(xùn)練Transformer(Generative Pre-trained Transformer)模型,是一種自然語(yǔ)言處理(Natural Language Processing,NLP)模型,由OpenAI開(kāi)發(fā),旨在通過(guò)預(yù)訓(xùn)練來(lái)改善各種自然語(yǔ)言處理任務(wù)的性能。GPT模型使用了Transformer結(jié)構(gòu),包含多個(gè)編碼器和解碼器層,以便對(duì)輸入文本進(jìn)行編碼和生成。GPT模型通過(guò)從大量未標(biāo)記的文本數(shù)據(jù)中預(yù)先訓(xùn)練來(lái)學(xué)習(xí)語(yǔ)言知識(shí)和結(jié)構(gòu),并在特定任務(wù)的微調(diào)過(guò)程中進(jìn)行微調(diào),例如文本分類、機(jī)器翻譯和對(duì)話生成。GPT模型已經(jīng)被廣泛用于自然語(yǔ)言處理領(lǐng)域,尤其是在生成文本方面取得了很大的成功。

主站蜘蛛池模板: 抚松县| 清水河县| 天长市| 临西县| 禄劝| 汽车| 卢氏县| 通许县| 淳安县| 博爱县| 霍山县| 齐齐哈尔市| 米林县| 蕉岭县| 卫辉市| 敦化市| 海盐县| 鄂尔多斯市| 成安县| 金川县| 东山县| 绥化市| 顺义区| 崇州市| 九龙城区| 辽宁省| 陵水| 荆门市| 巴塘县| 吉木乃县| 郴州市| 固原市| 申扎县| 太保市| 昌图县| 台州市| 民丰县| 海阳市| 黑水县| 德格县| 迁安市|