mg不朽情缘长视频

2017年，谷歌大腦團(tuán)隊(duì)（Google Brain）在神經(jīng)信息處理系統(tǒng)大會(huì)上發(fā)表了一篇名為“Attention Is All You Need”的論文，并在這篇論文中首次提出了基于自我注意力（Self-Attention）機(jī)制的模型。在這篇論文面世之前，自然語(yǔ)言處理領(lǐng)域的主流模型是循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）。循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是，能很好地處理具有時(shí)間序列的數(shù)據(jù)，比如語(yǔ)言、股票、服務(wù)器的監(jiān)控參數(shù)等。正因如此，這種模型在處理較長(zhǎng)序列，例如長(zhǎng)文章、圖書(shū)時(shí)，存在模型不穩(wěn)定或者模型過(guò)早停止有效訓(xùn)練的問(wèn)題。

在自我注意力機(jī)制論文發(fā)表之后，2017年誕生的Transformer模型（基于自我注意力機(jī)制的模型）能夠同時(shí)并行進(jìn)行數(shù)據(jù)計(jì)算和模型訓(xùn)練，訓(xùn)練時(shí)長(zhǎng)更短，模型具有可解釋性。最初的Transformer模型有6500萬(wàn)個(gè)可調(diào)參數(shù)。谷歌大腦團(tuán)隊(duì)使用多種公開(kāi)的語(yǔ)言數(shù)據(jù)集來(lái)訓(xùn)練這個(gè)模型，這些數(shù)據(jù)集包括2014年英語(yǔ)-德語(yǔ)機(jī)器翻譯研討班（Workshop on statistical Machine Translation，WMT）數(shù)據(jù)集、2014年英語(yǔ)-法語(yǔ)機(jī)器翻譯研討班數(shù)據(jù)集，以及賓夕法尼亞大學(xué)樹(shù)庫(kù)語(yǔ)言數(shù)據(jù)集的部分句組。谷歌大腦團(tuán)隊(duì)在論文中提供了模型的結(jié)構(gòu)，任何人都可以用該結(jié)構(gòu)搭建模型并結(jié)合自己的數(shù)據(jù)進(jìn)行訓(xùn)練。

經(jīng)過(guò)訓(xùn)練，最初的Transformer模型在翻譯準(zhǔn)確度、英語(yǔ)語(yǔ)句成分分析等各項(xiàng)評(píng)分上都達(dá)到了業(yè)內(nèi)第一的水平，成為當(dāng)時(shí)最先進(jìn)的大型語(yǔ)言模型（Large Language Model，LLM）。

在正式介紹ChatGPT之前，我們先簡(jiǎn)單了解一下GPT。GPT代表生成式預(yù)訓(xùn)練Transformer（Generative Pre-trained Transformer）模型，是一種自然語(yǔ)言處理（Natural Language Processing，NLP）模型，由OpenAI開(kāi)發(fā)，旨在通過(guò)預(yù)訓(xùn)練來(lái)改善各種自然語(yǔ)言處理任務(wù)的性能。GPT模型使用了Transformer結(jié)構(gòu)，包含多個(gè)編碼器和解碼器層，以便對(duì)輸入文本進(jìn)行編碼和生成。GPT模型通過(guò)從大量未標(biāo)記的文本數(shù)據(jù)中預(yù)先訓(xùn)練來(lái)學(xué)習(xí)語(yǔ)言知識(shí)和結(jié)構(gòu)，并在特定任務(wù)的微調(diào)過(guò)程中進(jìn)行微調(diào)，例如文本分類、機(jī)器翻譯和對(duì)話生成。GPT模型已經(jīng)被廣泛用于自然語(yǔ)言處理領(lǐng)域，尤其是在生成文本方面取得了很大的成功。

官术网_书友最值得收藏!

1.1 ChatGPT的由來(lái)

官术网_书友最值得收藏!

ChatGPT原理與實(shí)戰(zhàn)：大型語(yǔ)言模型的算法、技術(shù)和私有化

1.1 ChatGPT的由來(lái)