- 大型語言模型實戰指南:應用實踐與場景落地
- 劉聰 沈盛宇 李特麗 杜振東
- 385字
- 2024-11-13 10:19:00
1.2.3 Bloom模型
隨著LLM被證明可以僅根據一些示例或提示來完成一些新任務,越來越多的研究人員開始深入研究LLM。但是,訓練LLM的成本只有資源充足的組織才能承擔。目前,GPT-3等模型沒有開放參數,而OPT需要向MetaAI申請使用,因此沒有真正實現開源。為此,Hugging Face牽頭組織了Big Science項目,并于2022年提出了Bloom(Bigscience large open-science open-access multilingual language model,大科學、大型、開放科學、開源的多語言語言模型)。Bloom涉及46種自然語言和13種編程語言,共計1.6TB的文本數據。任何人都可以在Hugging Face網站上免費下載,并允許商業化使用。
Bloom的結構與GPT-3模型一致,共計1760億參數量,主要包括70層解碼器結構,每層112個注意力頭,文本的最大序列長度為2048,在激活函數的使用上采用了GeLU函數,詞表大小為250 680,如圖1-7所示。在位置信息編碼上采用ALiBi位置嵌入策略,它沒有向詞嵌入層添加位置信息,而是根據Key-Value的距離直接降低注意力分數。在詞嵌入層之后,直接加入一個歸一化層,從而提高模型訓練的穩定性。

圖1-7 Bloom結構