游戏开发教程

書名：大型語言模型實戰指南：應用實踐與場景落地
作者名：劉聰沈盛宇李特麗杜振東
本章字數： 385字
更新時間： 2024-11-13 10:19:00

1.2.3 Bloom模型

隨著LLM被證明可以僅根據一些示例或提示來完成一些新任務，越來越多的研究人員開始深入研究LLM。但是，訓練LLM的成本只有資源充足的組織才能承擔。目前，GPT-3等模型沒有開放參數，而OPT需要向MetaAI申請使用，因此沒有真正實現開源。為此，Hugging Face牽頭組織了Big Science項目，并于2022年提出了Bloom（Bigscience large open-science open-access multilingual language model，大科學、大型、開放科學、開源的多語言語言模型）。Bloom涉及46種自然語言和13種編程語言，共計1.6TB的文本數據。任何人都可以在Hugging Face網站上免費下載，并允許商業化使用。

Bloom的結構與GPT-3模型一致，共計1760億參數量，主要包括70層解碼器結構，每層112個注意力頭，文本的最大序列長度為2048，在激活函數的使用上采用了GeLU函數，詞表大小為250 680，如圖1-7所示。在位置信息編碼上采用ALiBi位置嵌入策略，它沒有向詞嵌入層添加位置信息，而是根據Key-Value的距離直接降低注意力分數。在詞嵌入層之后，直接加入一個歸一化層，從而提高模型訓練的穩定性。

圖1-7 Bloom結構

官术网_书友最值得收藏!

大型語言模型實戰指南：應用實踐與場景落地

1.2.3 Bloom模型