- 大型語言模型實(shí)戰(zhàn)指南:應(yīng)用實(shí)踐與場(chǎng)景落地
- 劉聰 沈盛宇 李特麗 杜振東
- 1101字
- 2024-11-13 10:19:01
1.2.5 LLaMA系列模型
隨著語言模型參數(shù)量的不斷增加,如何在給定訓(xùn)練成本的情況下訓(xùn)練出效果更好的大型語言模型是一個(gè)重要的課題。很多研究表明,在有限的訓(xùn)練資源下,性能最佳的語言模型不是將參數(shù)量設(shè)置為無限大,而是在更多的數(shù)據(jù)上訓(xùn)練參數(shù)量較少(60億個(gè)參數(shù)以上)的模型。在這種情況下,模型的推理成本也更低。
LLaMA模型是由MetaAI在2023年2月提出的,共開源了70億個(gè)參數(shù)、130億個(gè)參數(shù)、330億個(gè)參數(shù)和650億個(gè)參數(shù)4種不同大小的模型。經(jīng)過1.4萬億個(gè)Token的數(shù)據(jù)訓(xùn)練后的LLaMA模型,僅130億個(gè)參數(shù)的性能就優(yōu)于使用1750億個(gè)參數(shù)的GPT-3模型。此外,130億個(gè)參數(shù)的LLaMA模型只需要一個(gè)V100顯卡就可以進(jìn)行推理計(jì)算,大大降低了大型語言模型的推理成本。
LLaMA模型在Transformer的解碼器結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了以下3點(diǎn)改進(jìn)。
●預(yù)先歸一化:為了提高訓(xùn)練的穩(wěn)定性,將每一層的輸入進(jìn)行歸一化后,再進(jìn)行層內(nèi)參數(shù)計(jì)算,其中歸一化函數(shù)采用RMSNorm函數(shù)。
●SwiGLU激活函數(shù):將ReLU激活函數(shù)替換成SwiGLU激活函數(shù)。
●旋轉(zhuǎn)位置編碼:去除原有的絕對(duì)位置編碼,在每一層網(wǎng)絡(luò)中增加旋轉(zhuǎn)位置編碼。
模型在訓(xùn)練過程中使用AdamW優(yōu)化器進(jìn)行訓(xùn)練,其中β1和β2分別為0.9和0.95,并根據(jù)模型的大小改變學(xué)習(xí)率和訓(xùn)練批次大小,詳情如表1-4所示。LLaMA模型在訓(xùn)練時(shí)進(jìn)行了訓(xùn)練加速優(yōu)化,使650億個(gè)參數(shù)的模型在單個(gè)80GB顯存的A100顯卡上每秒可以處理380個(gè)Token,最終在2048個(gè)A100顯卡上進(jìn)行訓(xùn)練,1.4萬億個(gè)Token的訓(xùn)練數(shù)據(jù)在21天內(nèi)訓(xùn)練完成。
表1-4 不同參數(shù)量LLaMA模型的訓(xùn)練參數(shù)

LLaMA模型開源后,衍生出了很多基于LLaMA模型進(jìn)行繼續(xù)預(yù)訓(xùn)練或指令微調(diào)的模型,如Alpaca模型、Vicuna模型、Chinese LLaMA模型等,如圖1-10所示,可以說LLaMA模型降低了很多人進(jìn)入大型語言模型賽道的門檻。

圖1-10 LLaMA衍生模型示意圖
2023年7月18日,MetaAI又開源了LLaMA2模型,此次不僅開源了預(yù)訓(xùn)練模型,還開源了利用對(duì)話數(shù)據(jù)微調(diào)后的LLaMA2-Chat模型,均包含70億個(gè)參數(shù)、130億個(gè)參數(shù)和700億個(gè)參數(shù)三種。在預(yù)訓(xùn)練階段使用了2萬億個(gè)Token,在微調(diào)階段使用了超過10萬個(gè)數(shù)據(jù),人類偏好數(shù)據(jù)超過100萬。
LLaMA2模型依舊采用Transformer的解碼器結(jié)構(gòu),與LLaMA模型相同的是采用RMSNorm歸一化、SwiGLU激活函數(shù)、RoPE位置嵌入、相同的詞表構(gòu)建方式與大小,與LLaMA模型不同的是增加了GQA(分組查詢注意力),擴(kuò)大了模型輸入的最大長(zhǎng)度,預(yù)訓(xùn)練語料庫增加了40%。模型預(yù)訓(xùn)練采用AdamW優(yōu)化器,其β1、β2和學(xué)習(xí)率分別為0.9、0.95和10×10-5,采用cosin學(xué)習(xí)率,預(yù)熱2000步后進(jìn)行學(xué)習(xí)率衰減,最終降至峰值的10%,權(quán)重衰減系數(shù)為0.1,梯度裁剪值為1.0。
模型在進(jìn)行人類偏好對(duì)齊時(shí),重點(diǎn)關(guān)注有用性和安全性。由于有用性和安全性很難在同一個(gè)獎(jiǎng)勵(lì)模型中表現(xiàn)都很好,因此獨(dú)立訓(xùn)練了兩個(gè)獎(jiǎng)勵(lì)模型,一個(gè)針對(duì)有用性進(jìn)行了優(yōu)化,另一個(gè)針對(duì)安全性進(jìn)行了優(yōu)化。由于模型在幾輪對(duì)話后往往忘記最初的指令,為了解決這些問題,采用Ghost Attention方法來增強(qiáng)模型對(duì)指令的遵從。
- 深度學(xué)習(xí)計(jì)算機(jī)視覺實(shí)戰(zhàn)
- AI落地:讓人工智能為你所用
- 機(jī)器學(xué)習(xí)公式詳解(第2版)
- 機(jī)器學(xué)習(xí)算法競(jìng)賽實(shí)戰(zhàn)
- 人工智能時(shí)代生存指南
- 賢二機(jī)器僧漫游人工智能
- 應(yīng)用人工智能:工程方法(原書第2版)
- 從零開始:機(jī)器學(xué)習(xí)的數(shù)學(xué)原理和算法實(shí)踐
- 洞見未來的“元宇宙”世界(套裝8冊(cè))
- 智能機(jī)器人(第二版)
- 如何創(chuàng)造思維:人類思想所揭示出的奧秘
- 機(jī)器學(xué)習(xí)基礎(chǔ):從入門到求職
- 多智能體技術(shù)及應(yīng)用
- 人工智能關(guān)我什么事
- 虛擬現(xiàn)實(shí)VRP深度交互實(shí)例精解