- 大語言模型:原理、應用與優化
- 蘇之陽 王錦鵬 姜迪 宋元峰
- 486字
- 2024-12-18 17:06:24
1.3.1 基座模型實例
基座模型是通過在大量的數據集上進行無監督學習而得到的。在預訓練階段,模型會學習從文本中捕獲語言結構、語法規則、事實知識以及推理能力。因此,基座模型是一個通用的、未針對特定任務優化的模型。表1-1列出了近年來廣泛使用的一些基座模型,我們主要從使用者的角度出發,列舉了模型參數量、詞元量和是否開源等信息。
表1-1 典型基座模型

一這里的B指的是Billion,即10億。
(續)

在上述模型中,Meta旗下的LLaMA系列基座模型被人們廣泛使用,并且已經有大量研究工作對其用法進行了探索。我們以LLaMA 2[8]為例對基座模型進行介紹,它提供了不同參數規模的版本,用來滿足不同計算能力的需求。LLaMA 2在多個外部基準測試中顯示出卓越性能,其推理、編碼和知識測試等都優于同期的其他開源語言模型。LLaMA 2雖然支持20多種語言,但在中文處理方面并不突出。通過國內學者的繼續預訓練(Continue Pre-training)[9],它對中文的理解和生成能力已經得到顯著增強。LLaMA 2的所有訓練數據均源自公開數據集,這保障了相關研究的透明度和結果的可復現性。LLaMA 2模型的權重開放下載,并且支持商業用途,這極大地促進了其在學術界和工業界的應用,同時為開源大模型生態系統的繁榮發展奠定了基礎。
推薦閱讀