- ChatGPT原理與實(shí)戰(zhàn):大型語(yǔ)言模型的算法、技術(shù)和私有化
- 劉聰?shù)?/a>
- 733字
- 2023-11-07 16:33:54
1.1 ChatGPT的由來(lái)
2017年,谷歌大腦團(tuán)隊(duì)(Google Brain)在神經(jīng)信息處理系統(tǒng)大會(huì)上發(fā)表了一篇名為“Attention Is All You Need”的論文,并在這篇論文中首次提出了基于自我注意力(Self-Attention)機(jī)制的模型。在這篇論文面世之前,自然語(yǔ)言處理領(lǐng)域的主流模型是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是,能很好地處理具有時(shí)間序列的數(shù)據(jù),比如語(yǔ)言、股票、服務(wù)器的監(jiān)控參數(shù)等。正因如此,這種模型在處理較長(zhǎng)序列,例如長(zhǎng)文章、圖書(shū)時(shí),存在模型不穩(wěn)定或者模型過(guò)早停止有效訓(xùn)練的問(wèn)題。
在自我注意力機(jī)制論文發(fā)表之后,2017年誕生的Transformer模型(基于自我注意力機(jī)制的模型)能夠同時(shí)并行進(jìn)行數(shù)據(jù)計(jì)算和模型訓(xùn)練,訓(xùn)練時(shí)長(zhǎng)更短,模型具有可解釋性。最初的Transformer模型有6500萬(wàn)個(gè)可調(diào)參數(shù)。谷歌大腦團(tuán)隊(duì)使用多種公開(kāi)的語(yǔ)言數(shù)據(jù)集來(lái)訓(xùn)練這個(gè)模型,這些數(shù)據(jù)集包括2014年英語(yǔ)-德語(yǔ)機(jī)器翻譯研討班(Workshop on statistical Machine Translation,WMT)數(shù)據(jù)集、2014年英語(yǔ)-法語(yǔ)機(jī)器翻譯研討班數(shù)據(jù)集,以及賓夕法尼亞大學(xué)樹(shù)庫(kù)語(yǔ)言數(shù)據(jù)集的部分句組。谷歌大腦團(tuán)隊(duì)在論文中提供了模型的結(jié)構(gòu),任何人都可以用該結(jié)構(gòu)搭建模型并結(jié)合自己的數(shù)據(jù)進(jìn)行訓(xùn)練。
經(jīng)過(guò)訓(xùn)練,最初的Transformer模型在翻譯準(zhǔn)確度、英語(yǔ)語(yǔ)句成分分析等各項(xiàng)評(píng)分上都達(dá)到了業(yè)內(nèi)第一的水平,成為當(dāng)時(shí)最先進(jìn)的大型語(yǔ)言模型(Large Language Model,LLM)。
在正式介紹ChatGPT之前,我們先簡(jiǎn)單了解一下GPT。GPT代表生成式預(yù)訓(xùn)練Transformer(Generative Pre-trained Transformer)模型,是一種自然語(yǔ)言處理(Natural Language Processing,NLP)模型,由OpenAI開(kāi)發(fā),旨在通過(guò)預(yù)訓(xùn)練來(lái)改善各種自然語(yǔ)言處理任務(wù)的性能。GPT模型使用了Transformer結(jié)構(gòu),包含多個(gè)編碼器和解碼器層,以便對(duì)輸入文本進(jìn)行編碼和生成。GPT模型通過(guò)從大量未標(biāo)記的文本數(shù)據(jù)中預(yù)先訓(xùn)練來(lái)學(xué)習(xí)語(yǔ)言知識(shí)和結(jié)構(gòu),并在特定任務(wù)的微調(diào)過(guò)程中進(jìn)行微調(diào),例如文本分類、機(jī)器翻譯和對(duì)話生成。GPT模型已經(jīng)被廣泛用于自然語(yǔ)言處理領(lǐng)域,尤其是在生成文本方面取得了很大的成功。
- Arduino開(kāi)發(fā)實(shí)戰(zhàn)指南:智能家居卷
- 生成式AI:人工智能的未來(lái)
- COMSOL Multiphysics工程實(shí)踐與理論仿真
- 深度學(xué)習(xí)必學(xué)的十個(gè)問(wèn)題:理論與實(shí)踐
- Mahout算法解析與案例實(shí)戰(zhàn)
- 基于信息增強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法研究
- IBM商業(yè)價(jià)值報(bào)告:認(rèn)知計(jì)算與人工智能
- MindSpore科學(xué)計(jì)算
- 人工智能算法
- 豆包:人人都能上手的AI工具
- TensorFlow神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)
- 大語(yǔ)言模型:基礎(chǔ)與前沿
- AI幫你贏:人人都能用的AI方法論
- 人工智能:改變未來(lái)的顛覆性技術(shù)
- 文心一言:人人都能上手的AI工具