官术网_书友最值得收藏!

1.2.3 Bloom模型

隨著LLM被證明可以僅根據一些示例或提示來完成一些新任務,越來越多的研究人員開始深入研究LLM。但是,訓練LLM的成本只有資源充足的組織才能承擔。目前,GPT-3等模型沒有開放參數,而OPT需要向MetaAI申請使用,因此沒有真正實現開源。為此,Hugging Face牽頭組織了Big Science項目,并于2022年提出了Bloom(Bigscience large open-science open-access multilingual language model,大科學、大型、開放科學、開源的多語言語言模型)。Bloom涉及46種自然語言和13種編程語言,共計1.6TB的文本數據。任何人都可以在Hugging Face網站上免費下載,并允許商業化使用。

Bloom的結構與GPT-3模型一致,共計1760億參數量,主要包括70層解碼器結構,每層112個注意力頭,文本的最大序列長度為2048,在激活函數的使用上采用了GeLU函數,詞表大小為250 680,如圖1-7所示。在位置信息編碼上采用ALiBi位置嵌入策略,它沒有向詞嵌入層添加位置信息,而是根據Key-Value的距離直接降低注意力分數。在詞嵌入層之后,直接加入一個歸一化層,從而提高模型訓練的穩定性。

圖1-7 Bloom結構

主站蜘蛛池模板: 乌鲁木齐县| 巴中市| 梁河县| 百色市| 娱乐| 青州市| 乃东县| 马龙县| 南郑县| 东乌珠穆沁旗| 民丰县| 平乡县| 哈密市| 郑州市| 大田县| 海林市| 临泉县| 青州市| 常州市| 洪江市| 调兵山市| 新宾| 沙湾县| 郯城县| 郓城县| 滦南县| 普安县| 长乐市| 阿勒泰市| 上高县| 斗六市| 金川县| 紫云| 明光市| 平泉县| 安仁县| 延寿县| 准格尔旗| 南昌市| 澄迈县| 绥中县|