書名: 大型語言模型實(shí)戰(zhàn)指南:應(yīng)用實(shí)踐與場(chǎng)景落地作者名: 劉聰 沈盛宇 李特麗 杜振東本章字?jǐn)?shù): 1193字更新時(shí)間: 2024-11-13 10:19:00
1.2.4 GLM系列模型
GLM(General Language Model pretraining with autoregressive blank infilling,基于自回歸空白填充的通用語言預(yù)訓(xùn)練模型)是由清華大學(xué)于2021年3月提出的。GLM通過修改注意力掩碼機(jī)制實(shí)現(xiàn)統(tǒng)一模型,使得模型既可以用于NLU任務(wù),又可以用于NLG任務(wù)。
在預(yù)訓(xùn)練過程中,GLM會(huì)從一個(gè)文本中隨機(jī)挑選出多個(gè)文本片段(片段長(zhǎng)度服從λ為3的泊松分布),利用[MASK]標(biāo)記替換挑選出的片段并組成文本A,同時(shí)將這些挑選出的文本片段隨機(jī)排列組合成文本B。通過對(duì)[MASK]標(biāo)記進(jìn)行預(yù)測(cè),達(dá)到模型預(yù)訓(xùn)練的目的。GLM模型利用特殊的掩碼技術(shù),使得文本A中的所有Token內(nèi)容可以相互看見,而文本B中的Token只能看到當(dāng)前Token以前的內(nèi)容,具體如圖1-8所示。
為了解決每個(gè)[MASK]標(biāo)記與文本B中文本片段對(duì)齊的問題,在預(yù)訓(xùn)練過程中,GLM使用了兩種位置編碼方式。第一種位置編碼方式是,文本A的位置編碼按照Token順序進(jìn)行遞增編碼,而文本B中每個(gè)文本片段的位置編碼與文本A中對(duì)應(yīng)的[MASK]標(biāo)記的位置編碼相同。第二種位置編碼方式是,文本A的位置編碼全為0,而文本B中每個(gè)文本片段按照Token順序遞增編碼,具體如圖1-9所示。

圖1-8 GLM模型注意力掩碼矩陣

圖1-9 GLM模型位置編碼示意圖
采用以λ為3的泊松分布選取文本片段長(zhǎng)度的策略,使得GLM模型更偏向于完成NLU任務(wù)。為了更好地適應(yīng)NLG任務(wù),GLM模型在預(yù)訓(xùn)練過程中增加了文檔級(jí)任務(wù)和句子級(jí)任務(wù)。在文檔級(jí)任務(wù)中,GLM模型選擇僅抽取單個(gè)長(zhǎng)度為原始文本長(zhǎng)度的50%~100%的文本片段作為后續(xù)生成內(nèi)容。在句子級(jí)任務(wù)中,GLM模型選擇抽取多個(gè)完整句子的文本片段,使其總長(zhǎng)度不超過原始文本長(zhǎng)度的15%,再將多個(gè)句子拼接成一段作為后續(xù)生成內(nèi)容。
2022年10月,清華大學(xué)又發(fā)布了GLM-130B模型的開源版本。相較于GLM模型,GLM-130B模型在以下方面進(jìn)行了優(yōu)化。
●模型參數(shù)量更大,支持中、英兩種語言。
●采用兩種不同的掩碼標(biāo)記[MASK]和[gMASK],分別用于短文本和長(zhǎng)文本。
●位置編碼采用了旋轉(zhuǎn)位置編碼。
●采用深度歸一化(DeepNorm)方案作為層歸一化方案。
在ChatGPT出現(xiàn)之后,清華大學(xué)和智譜AI參考了ChatGPT的設(shè)計(jì)思路,以GLM-130B模型為底座,通過有監(jiān)督微調(diào)等技術(shù)實(shí)現(xiàn)人類意圖對(duì)齊的ChatGLM模型,并在2023年3月14日開啟了ChatGLM-130B模型的內(nèi)測(cè),開源了具有60億個(gè)參數(shù)的ChatGLM-6B模型,在業(yè)界受到了不少好評(píng)。
2023年6月25日,清華大學(xué)和智譜AI開源ChatGLM2-6B模型,在保留了Chat-GLM-6B模型對(duì)話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)上,又利用更多的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練并與人類偏好對(duì)齊,進(jìn)一步改善模型的相關(guān)性能指標(biāo);利用Flash Attention技術(shù)將模型支持的長(zhǎng)上下文擴(kuò)展到了3.2萬個(gè)Token;利用Multi-Query Attention技術(shù)使模型有更快的推理速度和更低的顯存占用,推理速度比ChatGLM-6B模型提升了42%。
同年10月27日,智譜AI又開源第三代基座大模型ChatGLM3-6B。ChatGLM3-6B模型在ChatGLM2-6B模型的基礎(chǔ)上,采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)、更長(zhǎng)的上下文,并采用ChatML格式的數(shù)據(jù)(涉及系統(tǒng)信息、用戶信息、AI助手信息、外部工具返回信息)來進(jìn)行模型訓(xùn)練。ChatGLM3-6B模型除了正常的多輪對(duì)話外,還支持工具調(diào)用、代碼執(zhí)行及智能體任務(wù)等。ChatGLM2-6B和ChatGLM3-6B模型的權(quán)重均對(duì)學(xué)術(shù)研究完全開放,在填寫問卷進(jìn)行登記后也允許免費(fèi)商業(yè)使用。
- 機(jī)器人制作從入門到精通(第3版)
- 成為提問工程師
- 深度思考:人工智能的終點(diǎn)與人類創(chuàng)造力的起點(diǎn)
- 機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn、Keras和TensorFlow(原書第3版)
- 應(yīng)用人工智能:工程方法(原書第2版)
- 深度學(xué)習(xí)必學(xué)的十個(gè)問題:理論與實(shí)踐
- 大模型項(xiàng)目實(shí)戰(zhàn):Agent開發(fā)與應(yīng)用
- 無人機(jī):知道這些就夠了
- DeepSeek全場(chǎng)景指南
- 機(jī)器人愛好者(第3輯)
- 人工智能核心:神經(jīng)網(wǎng)絡(luò)(青少科普版)
- Python深度學(xué)習(xí):基于TensorFlow(第2版)
- DeepSeek快速上手
- AI改變?cè)O(shè)計(jì) : 人工智能時(shí)代的設(shè)計(jì)師生存手冊(cè)
- 基于人工智能的自主磨拋系統(tǒng)