官术网_书友最值得收藏!

1.2.4 大模型的訓(xùn)練成本問題

近幾年,模型的規(guī)模不斷攀升。BERT-Base僅有1億參數(shù)量,而如今已出現(xiàn)千億、萬億級別的大模型,如圖1-6所示。

圖1-6 知名大模型的參數(shù)量

龐大的參數(shù)量意味著需要更多的訓(xùn)練資源。同時,考慮到訓(xùn)練時長,一個大模型的訓(xùn)練成本極為昂貴。早在2021年,便有科學(xué)家在論文“RETRO:Improving Language Models by Retrieving from Trillions of Tokens”中通過大量實驗證明,可以使用僅1/25參數(shù)量的模型結(jié)合RAG系統(tǒng),在Pile數(shù)據(jù)集上達(dá)到GPT-3的效果。

主站蜘蛛池模板: 余江县| 长泰县| 乐都县| 申扎县| 永川市| 东平县| 稷山县| 施秉县| 镇安县| 龙川县| 界首市| 石楼县| 建水县| 平阴县| 买车| 鱼台县| 揭东县| 元氏县| 珠海市| 孝义市| 新蔡县| 襄垣县| 台北县| 夏津县| 和顺县| 新乡县| 荣成市| 广宁县| 新宾| 大新县| 巢湖市| 乐业县| 武陟县| 九寨沟县| 金沙县| 绍兴县| 山东| 胶南市| 巍山| 陆河县| 年辖:市辖区|