官术网_书友最值得收藏!

1.2.7 Qwen系列模型

在ChatGPT爆火之后,國內各廠商都緊追不舍,紛紛開放自研大型語言模型接口邀請用戶進行測試和體驗。百度在2023年3月16日宣布大型語言模型“文心一言”開始內測,阿里巴巴在2023年4月7日宣布自研大型語言模型“通義千問”開始內測,很多廠商紛紛發聲,開啟了國內大型語言模型的崛起之路。但僅通過API來訪問大型語言模型,對研究這些模型的人來說變得十分困難。阿里巴巴為了幫助更多人從事大型語言模型相關的研究,于2023年8月3日開源了70億個參數的“通義千問”大模型Qwen-7B,在9月25日又開源了140億個參數的“通義千問”大模型Qwen-14B,隨后在11月30日開源了18億個參數和720億個參數的“通義千問”大模型Qwen-1.8B和Qwen-72B。

Qwen模型的預訓練數據主要涉及公共網絡文檔、百科全書、書籍、代碼等,數據涉及多種語言,但以中文和英文為主。為了保證數據質量,Qwen模型制定了一套全面的預處理程序,最終僅保留了3萬億個Token的訓練預料,具體如下:

●Web數據需要從HTML中提取文本內容,并采用語言識別工具確定語種。

●通過重復數據刪除技術增加數據的多樣性,包括規范化后的精確匹配重復數據刪除方法及使用MinHash和LSH算法的模糊重復數據刪除方法。

●結合規則和機器學習的方法過濾低質量數據,即通過多個模型對內容進行評分,包括語言模型、文本質量評分模型及用于識別潛在冒犯性的模型。

●從各種來源數據中手動采樣并進行審查,以確保其質量。

●有選擇地對來自某些來源的數據進行采樣,以確保模型在各種高質量內容上進行訓練。

Qwen模型在構建詞表的過程中,采用BPE分詞器,以cl100k為基礎詞庫,增加了常用的中文字詞及其他語言的詞匯,并把數字字符串拆成單個數字,最終將詞表大小定為15.2萬。模型結構依然采用Transformer的解碼器結構,但做了以下修改:

●對于嵌入層和lm_head層不進行權重共享,是兩個單獨的權重。

●采用RoPE位置編碼,并選擇使用FP32精確度的逆頻率矩陣。

●在QKV注意力層中添加了偏差,以增強模型的外推能力。

●采用預歸一化提高訓練穩定性,并將傳統歸一化方法替換為RMSNorm。

●采用SwiGLU激活函數,因此降低了隱藏層維度。

此外,在模型預訓練過程中,Qwen模型采用Flash Attention技術來提高訓練速度;采用AdamW優化器,并將超參數β1、β2和ε分別定為0.9、0.95和10-8;采用余弦學習率計劃,學習率衰減到峰值的10%;采用BFloat16進行混合精度訓練。由于Transformer模型的注意力機制在上下文長度上有很大的限制,隨著上下文長度的增加,模型的計算成本和內存會成倍增加。Qwen模型利用了動態NTK感知插值(隨著序列長度的增加動態縮放位置信息)、LogN-Scaling(對QV的點積進行重新縮放,確保注意力值的熵隨著上下文長度的增加而保持穩定)及窗口注意力機制(將注意力限制在一個上下文窗口內,防止模型關注到太遠的內容)等方式,在推理過程中可以將上下文長度擴展到1.6萬個Token。

為了提高有監督微調數據集的能力,Qwen模型對多種風格的對話進行了標注,以關注不同任務的自然語言生成,進一步提高模型的有用性。Qwen模型采用可以使模型有效區分各類信息(包括系統質量、用戶輸入、模型輸出等)的ChatML樣式的格式來進行模型訓練,以增強模型對復雜會話的處理和分析能力。在人類偏好對齊階段,獎勵模型先采用大量數據進行偏好模型預訓練(Preference Model Pretraining,PMP),再采用高質量偏好數據進行獎勵模型精調。高質量偏好數據通過具有6600個詳細標簽的分類系統平衡采樣獲取,以保證數據的多樣性和復雜性。獎勵模型由同等大小的Qwen模型+池化層得來,用特殊的句子結束標記映射值作為模型獎勵值。Qwen系列模型的詳細參數如表1-5所示。

表1-5 Qwen系列模型的詳細參數

主站蜘蛛池模板: 新郑市| 万载县| 大连市| 武威市| 民县| 河北省| 普宁市| 扎鲁特旗| 珠海市| 长乐市| 鹤山市| 合江县| 景宁| 长白| 贡觉县| 丹棱县| 陕西省| 永宁县| 嫩江县| 郯城县| 九寨沟县| 雷波县| 景德镇市| 仪陇县| 漳州市| 鹿泉市| 岑巩县| 罗江县| 义马市| 长丰县| 丁青县| 寿光市| 喀喇沁旗| 临洮县| 沂水县| 仁布县| 敖汉旗| 西乡县| 诏安县| 金川县| 黎城县|