- 大模型RAG實戰(zhàn):RAG原理、應(yīng)用與系統(tǒng)構(gòu)建
- 汪鵬 谷清水 卞龍鵬
- 181字
- 2024-10-29 18:53:31
1.2.4 大模型的訓(xùn)練成本問題
近幾年,模型的規(guī)模不斷攀升。BERT-Base僅有1億參數(shù)量,而如今已出現(xiàn)千億、萬億級別的大模型,如圖1-6所示。

圖1-6 知名大模型的參數(shù)量
龐大的參數(shù)量意味著需要更多的訓(xùn)練資源。同時,考慮到訓(xùn)練時長,一個大模型的訓(xùn)練成本極為昂貴。早在2021年,便有科學(xué)家在論文“RETRO:Improving Language Models by Retrieving from Trillions of Tokens”中通過大量實驗證明,可以使用僅1/25參數(shù)量的模型結(jié)合RAG系統(tǒng),在Pile數(shù)據(jù)集上達(dá)到GPT-3的效果。
推薦閱讀
- Learning Apex Programming
- SQL Server 2012數(shù)據(jù)庫技術(shù)及應(yīng)用(微課版·第5版)
- Learning ASP.NET Core 2.0
- C++程序設(shè)計基礎(chǔ)教程
- Java EE核心技術(shù)與應(yīng)用
- SciPy Recipes
- 硬件產(chǎn)品設(shè)計與開發(fā):從原型到交付
- Backbone.js Testing
- LabVIEW數(shù)據(jù)采集
- Maven for Eclipse
- WCF技術(shù)剖析(卷1)
- JavaScript Concurrency
- HTML5 WebSocket權(quán)威指南
- 現(xiàn)代C++語言核心特性解析
- ANSYS FLUENT 16.0超級學(xué)習(xí)手冊