官术网_书友最值得收藏!

1.2.5 LLaMA系列模型

隨著語言模型參數(shù)量的不斷增加,如何在給定訓(xùn)練成本的情況下訓(xùn)練出效果更好的大型語言模型是一個(gè)重要的課題。很多研究表明,在有限的訓(xùn)練資源下,性能最佳的語言模型不是將參數(shù)量設(shè)置為無限大,而是在更多的數(shù)據(jù)上訓(xùn)練參數(shù)量較少(60億個(gè)參數(shù)以上)的模型。在這種情況下,模型的推理成本也更低。

LLaMA模型是由MetaAI在2023年2月提出的,共開源了70億個(gè)參數(shù)、130億個(gè)參數(shù)、330億個(gè)參數(shù)和650億個(gè)參數(shù)4種不同大小的模型。經(jīng)過1.4萬億個(gè)Token的數(shù)據(jù)訓(xùn)練后的LLaMA模型,僅130億個(gè)參數(shù)的性能就優(yōu)于使用1750億個(gè)參數(shù)的GPT-3模型。此外,130億個(gè)參數(shù)的LLaMA模型只需要一個(gè)V100顯卡就可以進(jìn)行推理計(jì)算,大大降低了大型語言模型的推理成本。

LLaMA模型在Transformer的解碼器結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了以下3點(diǎn)改進(jìn)。

●預(yù)先歸一化:為了提高訓(xùn)練的穩(wěn)定性,將每一層的輸入進(jìn)行歸一化后,再進(jìn)行層內(nèi)參數(shù)計(jì)算,其中歸一化函數(shù)采用RMSNorm函數(shù)。

●SwiGLU激活函數(shù):將ReLU激活函數(shù)替換成SwiGLU激活函數(shù)。

●旋轉(zhuǎn)位置編碼:去除原有的絕對(duì)位置編碼,在每一層網(wǎng)絡(luò)中增加旋轉(zhuǎn)位置編碼。

模型在訓(xùn)練過程中使用AdamW優(yōu)化器進(jìn)行訓(xùn)練,其中β1和β2分別為0.9和0.95,并根據(jù)模型的大小改變學(xué)習(xí)率和訓(xùn)練批次大小,詳情如表1-4所示。LLaMA模型在訓(xùn)練時(shí)進(jìn)行了訓(xùn)練加速優(yōu)化,使650億個(gè)參數(shù)的模型在單個(gè)80GB顯存的A100顯卡上每秒可以處理380個(gè)Token,最終在2048個(gè)A100顯卡上進(jìn)行訓(xùn)練,1.4萬億個(gè)Token的訓(xùn)練數(shù)據(jù)在21天內(nèi)訓(xùn)練完成。

表1-4 不同參數(shù)量LLaMA模型的訓(xùn)練參數(shù)

LLaMA模型開源后,衍生出了很多基于LLaMA模型進(jìn)行繼續(xù)預(yù)訓(xùn)練或指令微調(diào)的模型,如Alpaca模型、Vicuna模型、Chinese LLaMA模型等,如圖1-10所示,可以說LLaMA模型降低了很多人進(jìn)入大型語言模型賽道的門檻。

圖1-10 LLaMA衍生模型示意圖

2023年7月18日,MetaAI又開源了LLaMA2模型,此次不僅開源了預(yù)訓(xùn)練模型,還開源了利用對(duì)話數(shù)據(jù)微調(diào)后的LLaMA2-Chat模型,均包含70億個(gè)參數(shù)、130億個(gè)參數(shù)和700億個(gè)參數(shù)三種。在預(yù)訓(xùn)練階段使用了2萬億個(gè)Token,在微調(diào)階段使用了超過10萬個(gè)數(shù)據(jù),人類偏好數(shù)據(jù)超過100萬。

LLaMA2模型依舊采用Transformer的解碼器結(jié)構(gòu),與LLaMA模型相同的是采用RMSNorm歸一化、SwiGLU激活函數(shù)、RoPE位置嵌入、相同的詞表構(gòu)建方式與大小,與LLaMA模型不同的是增加了GQA(分組查詢注意力),擴(kuò)大了模型輸入的最大長(zhǎng)度,預(yù)訓(xùn)練語料庫增加了40%。模型預(yù)訓(xùn)練采用AdamW優(yōu)化器,其β1、β2和學(xué)習(xí)率分別為0.9、0.95和10×10-5,采用cosin學(xué)習(xí)率,預(yù)熱2000步后進(jìn)行學(xué)習(xí)率衰減,最終降至峰值的10%,權(quán)重衰減系數(shù)為0.1,梯度裁剪值為1.0。

模型在進(jìn)行人類偏好對(duì)齊時(shí),重點(diǎn)關(guān)注有用性和安全性。由于有用性和安全性很難在同一個(gè)獎(jiǎng)勵(lì)模型中表現(xiàn)都很好,因此獨(dú)立訓(xùn)練了兩個(gè)獎(jiǎng)勵(lì)模型,一個(gè)針對(duì)有用性進(jìn)行了優(yōu)化,另一個(gè)針對(duì)安全性進(jìn)行了優(yōu)化。由于模型在幾輪對(duì)話后往往忘記最初的指令,為了解決這些問題,采用Ghost Attention方法來增強(qiáng)模型對(duì)指令的遵從。

主站蜘蛛池模板: 丽水市| 平武县| 虹口区| 丽江市| 金寨县| 宁河县| 亚东县| 武邑县| 景宁| 尚义县| 南安市| 安溪县| 宁海县| 平乡县| 旌德县| 乌拉特前旗| 炉霍县| 马关县| 澎湖县| 石城县| 璧山县| 禹城市| 定南县| 涿州市| 利辛县| 娱乐| 湖口县| 水城县| 南澳县| 云龙县| 肇东市| 德昌县| 卓资县| 广宗县| 安丘市| 垣曲县| 阜城县| 栾川县| 同心县| 神农架林区| 中超|