- 大型語言模型實戰指南:應用實踐與場景落地
- 劉聰 沈盛宇 李特麗 杜振東
- 378字
- 2024-11-13 10:18:58
CHAPTER 1
第1章
大型語言模型基礎
ChatGPT模型問世后,立刻在全球范圍內掀起了軒然大波。其卓越的效果引發了新一輪AI浪潮,尤其是在零樣本或少樣本數據情況下,ChatGPT模型也能夠達到SOTA(State Of The Art,最高水平)。這一現象使得許多AI從業人員轉向大型語言模型(Large Language Model,LLM)的研究。大型語言模型中的“大”,不僅僅是指模型參數量大,還指模型在訓練過程中所耗費的資源(數據和算力)量大。雖然目前尚無明確定義規定多少參數量的模型可以被稱為大型語言模型,但本書參考了開源社區中的大型語言模型的參數量,暫將擁有10億以上參數量的預訓練語言模型定義為大型語言模型。
目前,大型語言模型已經成為AI從業人員必須掌握的重要知識領域。本章首先講解大型語言模型的基礎架構——Transformer,然后介紹目前常用的通用大型語言模型和領域大型語言模型的技術細節,最后討論大型語言模型的評估方法,幫助讀者更全面地理解大型語言模型的概念和原理。