官术网_书友最值得收藏!

1.2.1 國外的大模型

國外大模型產業競爭激烈,主要企業包括OpenAI、Meta、Anthropic、Google等。

1.GPT系列

2018年,美國AI研究公司OpenAI提出了第一代GPT模型,將NLP帶入“預訓練”時代。隨后,OpenAI沿著GPT的技術思路,陸續發布了GPT-2、GPT-3、ChatGPT、GPT-4等產品,以及使用GPT-3代碼數據進行微調的編程大模型Codex、文生視頻模型Sora。

(1)GPT-3

2020年5月,OpenAI發布了GPT-3,它包含1750億(175B[3])個模型參數,可以通過少量的樣本進行學習。和人類一樣,GPT-3不需要看完所有樣例才能學習,而是看一小部分樣例就能學會更多的知識。

GPT-3的體量非常龐大,因此在特定領域任務中進行調優(Fine-Tune)的成本很高。為了解決這個問題,GPT-3使用了語境學習(In-Context Learning,ICL)的方式,在不進行梯度更新或調優的情況下,直接在上下文中進行學習。它通過提供具體任務的“提示”,即便不對模型進行調整也可完成任務。如果在輸入中提供一個或幾個示例,那么任務完成的效果會更好。

提示:梯度更新是機器學習和深度學習中優化算法的核心組成部分,尤其是在訓練神經網絡時。在模型的訓練過程中,我們定義一個損失函數(或稱目標函數、代價函數),這個函數量化了模型預測值與實際值之間的差異。我們的目標是最小化這個損失函數。

梯度是損失函數關于模型參數的偏導數,它指向損失增加最快的方向。因此,負梯度則指向損失減少最快的方向。在訓練過程中,我們通過計算損失函數關于每個參數的梯度,然后按照這個梯度的反方向更新參數來逐步減少損失。這個過程稱為梯度下降,而每次根據梯度調整參數的過程就是梯度更新。

梯度更新通常遵循這樣的公式:

θnew=θold·?Jθold

其中,θold是舊的參數值,θnew是更新后的參數值,η是學習率(決定了更新步長的大?。?,?Jθold)是損失函數J在當前參數值下的梯度。通過反復執行這種梯度更新,模型參數會逐漸調整到使損失函數最小化的最優解附近。

GPT-3不僅在各種NLP任務中具有非常出色的性能,而且在一些需要推理或特殊領域任務中也表現得非常出色。GPT-3也被視為從PLM(預訓練語言模型)到大模型發展過程中的一個重要里程碑。

(2)ChatGPT

2022年11月30日,OpenAI發布了基于GPT模型的會話大模型ChatGPT,上線兩個月活躍用戶數過億。從技術角度講,ChatGPT是一個聚焦于對話生成的大模型,它能夠根據用戶的文本描述,結合歷史對話,產生相應的智能回復。ChatGPT在與人類交流方面表現出優越的能力,開啟了機器自然語言交互式學習的“類人”新范式。

(3)GPT-4

2023年3月,OpenAI發布的GPT-4將大模型的輸入擴展到多模態信息。GPT-4比ChatGPT具有更強的復雜任務解決能力,在許多評估任務上都有很大的性能提高。

值得注意的是,GPT-4在獎勵模型上新增了一個安全獎勵機制,用來減少有害信息的輸出。相比ChatGPT,GPT-4進一步解決了ChatCPT面臨的長文本輸入、多模態輸入、外部實時知識運用等諸多挑戰,在復雜認知任務(跨學科語言理解、跨行業知識運用)、復雜推理任務、多模態任務等方面繼續進步,進一步抬高了智能涌現的上限,再一次驚艷世人。

GPT-4模型在理解人類語言方面獲得了里程碑式的成就。

(4)Codex

Codex是基于GPT-3進行微調的編程大模型,是OpenAI將大模型技術應用于代碼領域的重要案例。Codex的訓練數據來自GitHub(約為159GB的代碼數據)?;贑odex,GitHub與OpenAI合作推出另一個面向市場的代碼補全工具Copilot,旨在幫助程序員編寫代碼。

(5)Sora

2024年2月,OpenAI發布首個文生視頻模型Sora,引爆全球。Sora以通用大模型為底座,效果顯著超越業界現有視頻模型的同類產品,更加體現出通用AI的潛力。Sora和業界視頻模型的生成能力比較如表1-1所示。

表1-1 Sora和業界視頻模型的生成能力比較

(續)

Sora能夠生成分鐘級時長的視頻,支持單視頻多鏡頭,且能更好地理解提示,如以“生成一段美麗的剪影動畫,展現一只狼感到孤獨,在月光下嚎叫,直到它找到自己的群體?!睘槔傻膭赢嫿貓D如圖1-3所示。該圖能夠展示出月光、狼,還有孤獨的感覺。

圖1-3 Sora生成的動畫截圖

大模型文生視頻技術并不是真正的物理世界的模擬器,而是物理3D視覺世界的逼真模擬,存在一些局限性。比如會出現吹不滅的蠟燭、懸空的椅子、人在鐵軌上行走等情況,也不足以完全模擬所有現實中的物理過程(比如重力、摩擦力、流體動力學等)。另外,它還存在推理效率的問題,在同等參數量、數據量,訓練時間比文生圖模型要長2至3個量級。

2.LLaMA系列

2023年,Meta發布開放且高效的大語言模型LLaMA,有7B、13B、33B、65B(650億)4種版本。

LLaMA的模型性能非常優異,在大多數基準測試上,130億參數量的LLaMA模型可以勝過GPT-3(參數量達1750億),而且可以在單塊V100 GPU(圖形處理器)上運行;而650億參數量的LLaMA模型可以媲美Google的Chinchilla-70B和PaLM-540B。

LLaMA的訓練集來源于公開數據集,無任何定制數據集,保證了其工作與開源兼容和可復現。其中,LLaMA-7B是在1萬億個Token上訓練的,而LLaMA-33B和LLaMA-65B是在1.4萬億個Token上訓練的。

2023年7月,Meta發布免費的商用開源模型LLaMA 2。LLaMA 2對LLaMA模型進行升級,預訓練語料增加了40%,增至2萬億個Token,且訓練數據中的文本來源更加多樣化。LLaMA 2包括LLaMA 2預訓練模型和LLaMA2-chat微調模型,有7B、13B和70B參數量的版本,覆蓋了不同應用場景的需求。

其中,LLaMA2-chat微調模型是在超過100萬條人工標注的數據下訓練而成的。除了訓練數據的增加,LLaMA 2的訓練過程也有兩個值得關注的點:一是擴大了上下文長度,提升了模型的理解能力;二是采用查詢注意力機制,提高了模型的推理速度。

其他主流模型還有Anthropic的Claude系列、Google的PaLM系列及Gemini系列,讀者可自行了解。

主站蜘蛛池模板: 荣成市| 岐山县| 松溪县| 岳普湖县| 兴山县| 聂荣县| 淳化县| 惠来县| 中牟县| 荆门市| 怀远县| 英超| 体育| 岑巩县| 乌苏市| 繁峙县| 宣武区| 武夷山市| 集贤县| 张北县| 犍为县| 新乡县| 大同市| 同仁县| 南平市| 邵阳市| 南木林县| 县级市| 阿拉尔市| 东乌珠穆沁旗| 中超| 辉南县| 横山县| 昌图县| 祁门县| 临沧市| 沙河市| 门头沟区| 新昌县| 上饶市| 兰考县|