不朽情缘直播平台

書名：大型語言模型實(shí)戰(zhàn)指南：應(yīng)用實(shí)踐與場(chǎng)景落地
作者名：劉聰沈盛宇李特麗杜振東
本章字?jǐn)?shù)： 1193字
更新時(shí)間： 2024-11-13 10:19:00

1.2.4 GLM系列模型

GLM（General Language Model pretraining with autoregressive blank infilling，基于自回歸空白填充的通用語言預(yù)訓(xùn)練模型）是由清華大學(xué)于2021年3月提出的。GLM通過修改注意力掩碼機(jī)制實(shí)現(xiàn)統(tǒng)一模型，使得模型既可以用于NLU任務(wù)，又可以用于NLG任務(wù)。

在預(yù)訓(xùn)練過程中，GLM會(huì)從一個(gè)文本中隨機(jī)挑選出多個(gè)文本片段（片段長(zhǎng)度服從λ為3的泊松分布），利用[MASK]標(biāo)記替換挑選出的片段并組成文本A，同時(shí)將這些挑選出的文本片段隨機(jī)排列組合成文本B。通過對(duì)[MASK]標(biāo)記進(jìn)行預(yù)測(cè)，達(dá)到模型預(yù)訓(xùn)練的目的。GLM模型利用特殊的掩碼技術(shù)，使得文本A中的所有Token內(nèi)容可以相互看見，而文本B中的Token只能看到當(dāng)前Token以前的內(nèi)容，具體如圖1-8所示。

為了解決每個(gè)[MASK]標(biāo)記與文本B中文本片段對(duì)齊的問題，在預(yù)訓(xùn)練過程中，GLM使用了兩種位置編碼方式。第一種位置編碼方式是，文本A的位置編碼按照Token順序進(jìn)行遞增編碼，而文本B中每個(gè)文本片段的位置編碼與文本A中對(duì)應(yīng)的[MASK]標(biāo)記的位置編碼相同。第二種位置編碼方式是，文本A的位置編碼全為0，而文本B中每個(gè)文本片段按照Token順序遞增編碼，具體如圖1-9所示。

圖1-8 GLM模型注意力掩碼矩陣

圖1-9 GLM模型位置編碼示意圖

采用以λ為3的泊松分布選取文本片段長(zhǎng)度的策略，使得GLM模型更偏向于完成NLU任務(wù)。為了更好地適應(yīng)NLG任務(wù)，GLM模型在預(yù)訓(xùn)練過程中增加了文檔級(jí)任務(wù)和句子級(jí)任務(wù)。在文檔級(jí)任務(wù)中，GLM模型選擇僅抽取單個(gè)長(zhǎng)度為原始文本長(zhǎng)度的50%～100%的文本片段作為后續(xù)生成內(nèi)容。在句子級(jí)任務(wù)中，GLM模型選擇抽取多個(gè)完整句子的文本片段，使其總長(zhǎng)度不超過原始文本長(zhǎng)度的15%，再將多個(gè)句子拼接成一段作為后續(xù)生成內(nèi)容。

2022年10月，清華大學(xué)又發(fā)布了GLM-130B模型的開源版本。相較于GLM模型，GLM-130B模型在以下方面進(jìn)行了優(yōu)化。

●模型參數(shù)量更大，支持中、英兩種語言。

●采用兩種不同的掩碼標(biāo)記[MASK]和[gMASK]，分別用于短文本和長(zhǎng)文本。

●位置編碼采用了旋轉(zhuǎn)位置編碼。

●采用深度歸一化（DeepNorm）方案作為層歸一化方案。

在ChatGPT出現(xiàn)之后，清華大學(xué)和智譜AI參考了ChatGPT的設(shè)計(jì)思路，以GLM-130B模型為底座，通過有監(jiān)督微調(diào)等技術(shù)實(shí)現(xiàn)人類意圖對(duì)齊的ChatGLM模型，并在2023年3月14日開啟了ChatGLM-130B模型的內(nèi)測(cè)，開源了具有60億個(gè)參數(shù)的ChatGLM-6B模型，在業(yè)界受到了不少好評(píng)。

2023年6月25日，清華大學(xué)和智譜AI開源ChatGLM2-6B模型，在保留了Chat-GLM-6B模型對(duì)話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)上，又利用更多的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練并與人類偏好對(duì)齊，進(jìn)一步改善模型的相關(guān)性能指標(biāo)；利用Flash Attention技術(shù)將模型支持的長(zhǎng)上下文擴(kuò)展到了3.2萬個(gè)Token；利用Multi-Query Attention技術(shù)使模型有更快的推理速度和更低的顯存占用，推理速度比ChatGLM-6B模型提升了42%。

同年10月27日，智譜AI又開源第三代基座大模型ChatGLM3-6B。ChatGLM3-6B模型在ChatGLM2-6B模型的基礎(chǔ)上，采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)、更長(zhǎng)的上下文，并采用ChatML格式的數(shù)據(jù)（涉及系統(tǒng)信息、用戶信息、AI助手信息、外部工具返回信息）來進(jìn)行模型訓(xùn)練。ChatGLM3-6B模型除了正常的多輪對(duì)話外，還支持工具調(diào)用、代碼執(zhí)行及智能體任務(wù)等。ChatGLM2-6B和ChatGLM3-6B模型的權(quán)重均對(duì)學(xué)術(shù)研究完全開放，在填寫問卷進(jìn)行登記后也允許免費(fèi)商業(yè)使用。

官术网_书友最值得收藏!

大型語言模型實(shí)戰(zhàn)指南：應(yīng)用實(shí)踐與場(chǎng)景落地

1.2.4 GLM系列模型