捕鱼机屡烧场管是什么原因

書名：大型語言模型實(shí)戰(zhàn)指南：應(yīng)用實(shí)踐與場(chǎng)景落地
作者名：劉聰沈盛宇李特麗杜振東
本章字?jǐn)?shù)： 1101字
更新時(shí)間： 2024-11-13 10:19:01

1.2.5 LLaMA系列模型

隨著語言模型參數(shù)量的不斷增加，如何在給定訓(xùn)練成本的情況下訓(xùn)練出效果更好的大型語言模型是一個(gè)重要的課題。很多研究表明，在有限的訓(xùn)練資源下，性能最佳的語言模型不是將參數(shù)量設(shè)置為無限大，而是在更多的數(shù)據(jù)上訓(xùn)練參數(shù)量較少（60億個(gè)參數(shù)以上）的模型。在這種情況下，模型的推理成本也更低。

LLaMA模型是由MetaAI在2023年2月提出的，共開源了70億個(gè)參數(shù)、130億個(gè)參數(shù)、330億個(gè)參數(shù)和650億個(gè)參數(shù)4種不同大小的模型。經(jīng)過1.4萬億個(gè)Token的數(shù)據(jù)訓(xùn)練后的LLaMA模型，僅130億個(gè)參數(shù)的性能就優(yōu)于使用1750億個(gè)參數(shù)的GPT-3模型。此外，130億個(gè)參數(shù)的LLaMA模型只需要一個(gè)V100顯卡就可以進(jìn)行推理計(jì)算，大大降低了大型語言模型的推理成本。

LLaMA模型在Transformer的解碼器結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了以下3點(diǎn)改進(jìn)。

●預(yù)先歸一化：為了提高訓(xùn)練的穩(wěn)定性，將每一層的輸入進(jìn)行歸一化后，再進(jìn)行層內(nèi)參數(shù)計(jì)算，其中歸一化函數(shù)采用RMSNorm函數(shù)。

●SwiGLU激活函數(shù)：將ReLU激活函數(shù)替換成SwiGLU激活函數(shù)。

●旋轉(zhuǎn)位置編碼：去除原有的絕對(duì)位置編碼，在每一層網(wǎng)絡(luò)中增加旋轉(zhuǎn)位置編碼。

模型在訓(xùn)練過程中使用AdamW優(yōu)化器進(jìn)行訓(xùn)練，其中β1和β2分別為0.9和0.95，并根據(jù)模型的大小改變學(xué)習(xí)率和訓(xùn)練批次大小，詳情如表1-4所示。LLaMA模型在訓(xùn)練時(shí)進(jìn)行了訓(xùn)練加速優(yōu)化，使650億個(gè)參數(shù)的模型在單個(gè)80GB顯存的A100顯卡上每秒可以處理380個(gè)Token，最終在2048個(gè)A100顯卡上進(jìn)行訓(xùn)練，1.4萬億個(gè)Token的訓(xùn)練數(shù)據(jù)在21天內(nèi)訓(xùn)練完成。

表1-4 不同參數(shù)量LLaMA模型的訓(xùn)練參數(shù)

LLaMA模型開源后，衍生出了很多基于LLaMA模型進(jìn)行繼續(xù)預(yù)訓(xùn)練或指令微調(diào)的模型，如Alpaca模型、Vicuna模型、Chinese LLaMA模型等，如圖1-10所示，可以說LLaMA模型降低了很多人進(jìn)入大型語言模型賽道的門檻。

圖1-10 LLaMA衍生模型示意圖

2023年7月18日，MetaAI又開源了LLaMA2模型，此次不僅開源了預(yù)訓(xùn)練模型，還開源了利用對(duì)話數(shù)據(jù)微調(diào)后的LLaMA2-Chat模型，均包含70億個(gè)參數(shù)、130億個(gè)參數(shù)和700億個(gè)參數(shù)三種。在預(yù)訓(xùn)練階段使用了2萬億個(gè)Token，在微調(diào)階段使用了超過10萬個(gè)數(shù)據(jù)，人類偏好數(shù)據(jù)超過100萬。

LLaMA2模型依舊采用Transformer的解碼器結(jié)構(gòu)，與LLaMA模型相同的是采用RMSNorm歸一化、SwiGLU激活函數(shù)、RoPE位置嵌入、相同的詞表構(gòu)建方式與大小，與LLaMA模型不同的是增加了GQA（分組查詢注意力），擴(kuò)大了模型輸入的最大長(zhǎng)度，預(yù)訓(xùn)練語料庫增加了40%。模型預(yù)訓(xùn)練采用AdamW優(yōu)化器，其β1、β2和學(xué)習(xí)率分別為0.9、0.95和10×10-5，采用cosin學(xué)習(xí)率，預(yù)熱2000步后進(jìn)行學(xué)習(xí)率衰減，最終降至峰值的10%，權(quán)重衰減系數(shù)為0.1，梯度裁剪值為1.0。

模型在進(jìn)行人類偏好對(duì)齊時(shí)，重點(diǎn)關(guān)注有用性和安全性。由于有用性和安全性很難在同一個(gè)獎(jiǎng)勵(lì)模型中表現(xiàn)都很好，因此獨(dú)立訓(xùn)練了兩個(gè)獎(jiǎng)勵(lì)模型，一個(gè)針對(duì)有用性進(jìn)行了優(yōu)化，另一個(gè)針對(duì)安全性進(jìn)行了優(yōu)化。由于模型在幾輪對(duì)話后往往忘記最初的指令，為了解決這些問題，采用Ghost Attention方法來增強(qiáng)模型對(duì)指令的遵從。

官术网_书友最值得收藏!

大型語言模型實(shí)戰(zhàn)指南：應(yīng)用實(shí)踐與場(chǎng)景落地

1.2.5 LLaMA系列模型