官术网_书友最值得收藏!

1.2.4 GLM系列模型

GLM(General Language Model pretraining with autoregressive blank infilling,基于自回歸空白填充的通用語言預(yù)訓(xùn)練模型)是由清華大學(xué)于2021年3月提出的。GLM通過修改注意力掩碼機(jī)制實(shí)現(xiàn)統(tǒng)一模型,使得模型既可以用于NLU任務(wù),又可以用于NLG任務(wù)。

在預(yù)訓(xùn)練過程中,GLM會(huì)從一個(gè)文本中隨機(jī)挑選出多個(gè)文本片段(片段長(zhǎng)度服從λ為3的泊松分布),利用[MASK]標(biāo)記替換挑選出的片段并組成文本A,同時(shí)將這些挑選出的文本片段隨機(jī)排列組合成文本B。通過對(duì)[MASK]標(biāo)記進(jìn)行預(yù)測(cè),達(dá)到模型預(yù)訓(xùn)練的目的。GLM模型利用特殊的掩碼技術(shù),使得文本A中的所有Token內(nèi)容可以相互看見,而文本B中的Token只能看到當(dāng)前Token以前的內(nèi)容,具體如圖1-8所示。

為了解決每個(gè)[MASK]標(biāo)記與文本B中文本片段對(duì)齊的問題,在預(yù)訓(xùn)練過程中,GLM使用了兩種位置編碼方式。第一種位置編碼方式是,文本A的位置編碼按照Token順序進(jìn)行遞增編碼,而文本B中每個(gè)文本片段的位置編碼與文本A中對(duì)應(yīng)的[MASK]標(biāo)記的位置編碼相同。第二種位置編碼方式是,文本A的位置編碼全為0,而文本B中每個(gè)文本片段按照Token順序遞增編碼,具體如圖1-9所示。

圖1-8 GLM模型注意力掩碼矩陣

圖1-9 GLM模型位置編碼示意圖

采用以λ為3的泊松分布選取文本片段長(zhǎng)度的策略,使得GLM模型更偏向于完成NLU任務(wù)。為了更好地適應(yīng)NLG任務(wù),GLM模型在預(yù)訓(xùn)練過程中增加了文檔級(jí)任務(wù)和句子級(jí)任務(wù)。在文檔級(jí)任務(wù)中,GLM模型選擇僅抽取單個(gè)長(zhǎng)度為原始文本長(zhǎng)度的50%~100%的文本片段作為后續(xù)生成內(nèi)容。在句子級(jí)任務(wù)中,GLM模型選擇抽取多個(gè)完整句子的文本片段,使其總長(zhǎng)度不超過原始文本長(zhǎng)度的15%,再將多個(gè)句子拼接成一段作為后續(xù)生成內(nèi)容。

2022年10月,清華大學(xué)又發(fā)布了GLM-130B模型的開源版本。相較于GLM模型,GLM-130B模型在以下方面進(jìn)行了優(yōu)化。

●模型參數(shù)量更大,支持中、英兩種語言。

●采用兩種不同的掩碼標(biāo)記[MASK]和[gMASK],分別用于短文本和長(zhǎng)文本。

●位置編碼采用了旋轉(zhuǎn)位置編碼。

●采用深度歸一化(DeepNorm)方案作為層歸一化方案。

在ChatGPT出現(xiàn)之后,清華大學(xué)和智譜AI參考了ChatGPT的設(shè)計(jì)思路,以GLM-130B模型為底座,通過有監(jiān)督微調(diào)等技術(shù)實(shí)現(xiàn)人類意圖對(duì)齊的ChatGLM模型,并在2023年3月14日開啟了ChatGLM-130B模型的內(nèi)測(cè),開源了具有60億個(gè)參數(shù)的ChatGLM-6B模型,在業(yè)界受到了不少好評(píng)。

2023年6月25日,清華大學(xué)和智譜AI開源ChatGLM2-6B模型,在保留了Chat-GLM-6B模型對(duì)話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)上,又利用更多的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練并與人類偏好對(duì)齊,進(jìn)一步改善模型的相關(guān)性能指標(biāo);利用Flash Attention技術(shù)將模型支持的長(zhǎng)上下文擴(kuò)展到了3.2萬個(gè)Token;利用Multi-Query Attention技術(shù)使模型有更快的推理速度和更低的顯存占用,推理速度比ChatGLM-6B模型提升了42%。

同年10月27日,智譜AI又開源第三代基座大模型ChatGLM3-6B。ChatGLM3-6B模型在ChatGLM2-6B模型的基礎(chǔ)上,采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)、更長(zhǎng)的上下文,并采用ChatML格式的數(shù)據(jù)(涉及系統(tǒng)信息、用戶信息、AI助手信息、外部工具返回信息)來進(jìn)行模型訓(xùn)練。ChatGLM3-6B模型除了正常的多輪對(duì)話外,還支持工具調(diào)用、代碼執(zhí)行及智能體任務(wù)等。ChatGLM2-6B和ChatGLM3-6B模型的權(quán)重均對(duì)學(xué)術(shù)研究完全開放,在填寫問卷進(jìn)行登記后也允許免費(fèi)商業(yè)使用。

主站蜘蛛池模板: 福泉市| 富锦市| 和林格尔县| 峨眉山市| 正镶白旗| 屏山县| 瓦房店市| 抚州市| 明光市| 永城市| 琼结县| 西乌珠穆沁旗| 石泉县| 江都市| 永州市| 临高县| 盐池县| 阿克苏市| 马公市| 迁西县| 兴仁县| 韩城市| 康定县| 黄山市| 岳西县| 嘉兴市| 马山县| 东辽县| 司法| 台湾省| 石阡县| 黔江区| 梅河口市| 滦平县| 伊金霍洛旗| 蒲城县| 五原县| 淮安市| 德庆县| 长垣县| 鹤岗市|