- 大模型入門:技術原理與實戰應用
- 程絮森等編著
- 1987字
- 2024-06-21 21:31:28
1.2 大模型的神奇力量:工作原理大揭秘
在1.1節中,我們親眼見證了ChatGPT的驚人創造力,能夠在幾秒內以李白的豪放派風格創作出美妙的詩歌。那么,下面讓我們來深入探討大模型是如何擁有一個跨越多領域、穿越古今的“超級大腦”的。
大模型豐富的知識儲備來自其龐大的訓練數據集,其中包括互聯網上各種各樣的文本,從新聞文章到小說、論文以及其他網頁內容。各種各樣的數據集豐富了大模型對語言和知識的理解,使它能夠涵蓋多領域。數據集是其獲得知識的來源,據統計,ChatGPT的數據集主要采集于以下幾個數據源。
(1)BooksCorpus:這是一個包含11,038本英文電子圖書的語料庫,共有74億個單詞。
(2)WebText:這是一個從互聯網上抓取的大規模文本數據集,包括超過8萬個網站的文本數據,共有13億個單詞。
(3)Common Crawl:這是一個存檔互聯網上公開可用的數據集,包括數百億個網頁、網站和其他類型的文本數據。
(4)Wikipedia:這是一個由志愿者編輯的百科全書,包括各種領域的知識和信息,是一個非常有價值的語言資源。
在海量數據的基礎上,大模型采用了基于變換器(Transformer)模型的深度神經網絡模型,獲得了處理長文本和復雜語法的能力,同時保持了上下文的一致性,幫助ChatGPT生成更準確、連貫的文本。模型的本質是一個概率計算的過程,如圖1-4所示為一個基礎的語言概率模型示意圖,以不同的概率和選擇策略決定生成的文本。

圖1-4 語言模型示意圖
在本例中,生成不同文本的概率如下。
「我愛你」概率:0.5×0.6=0.3
「我愛她」概率:0.5×0.3=0.15
「我想吃」概率:0.3×0.5=0.15
「我想走」概率:0.4×0.3=0.12
在模型生成文本時,選擇“我愛你”,還是“我愛她”,取決于大模型的參數設置,即溫度和TOP_P,溫度值決定了文本的隨機性,較高的溫度值會提升返回的隨機值,較低的溫度值會使模型傾向于返回可能性更高的詞語。TOP_P是GPT2版本中引入的一個參數,選擇詞語時在累積概率>P的詞語中進行選擇,在概率分布相對均勻的情況下,可選詞語會比較多;在分布方差較大的情況下,選擇會少一些。
模型的訓練包括兩個過程,即預訓練與有監督微調(SFT)。在預訓練階段,大規模文本數據被收集和準備用于模型的預訓練。這個語料庫通常包含來自互聯網的各種文本,包括網頁、社交媒體帖子、新聞文章等。一個大型的神經網絡模型在經過構建和預訓練之后,通過在上述文本語料庫上進行自監督學習。在自監督學習中,模型通過在上下文中預測缺失的單詞或標記來學習語言的語法、語義和世界知識。預訓練的模型通常由多個Transformer層組成,用于建模文本序列中的依賴關系。這些模型可以包含數億或數十億的參數。經過預訓練后,模型的參數包含了大量的知識,可以被視為通用的“語言理解”模型,但還需要微調以適應特定的任務。
在微調階段,模型被進一步訓練以適應特定的自然語言處理(Natural Language Processing,NLP)任務。為此,使用特定任務的標記數據集,如文本分類、文本生成、情感分析等。微調階段通常包括添加額外的神經網絡層,這些層根據任務的需求自定義,模型會經過特定任務的數據集的多次訓練,逐漸適應該任務。
大模型之所以能夠理解人類的復雜任務,在預訓練—微調模式的基礎上,還有一個關鍵的技術,即基于人類反饋的強化學習方式(Reinforcement Learning from Human Feedback,RLHF),通俗的表達就是從人類的反饋中學習。聽起來感覺好像很容易想到,實際上卻經歷了不斷探索才有所發現,可以說沒有RLHF,ChatGPT的通用性遠遠達不到現在這種程度。微調過程很容易理解,如圖1-5所示,經歷了三個步驟。
步驟1 有監督微調(Supervised Fine-Tuning,SFT)整個過程是在已標注數據上進行微調訓練完成的。這里的數據是指用戶在對話框中輸入的提示詞和對ChatGPT輸出內容的回復,幫助大模型增強在特定領域的能力。
步驟2 獎勵模型(Reward Model,RM)。當前一步的SFT過程生成輸出文本后,標注人員對這些輸出結果進行排序。然后每次從輸出結果中選取2個來訓練這個獎勵模型,使模型學習評價效果。這一步驟非常關鍵,它就是所謂的Human Feedback,用來引導下一步模型的進化方向。
步驟3 強化學習(Reinforcement Learning,RL)在步驟2的RM過程對輸出結果評分后,獎勵模型將評分回傳給模型更新參數,更新模型時會考慮參數每一個詞的輸出和第一步SFT輸出之間的差異性,盡可能使兩者相似,這個過程使用的優化策略是圖1-5中的近端策略優化(Proximal Policy Optimization,PPO),可以有效緩解強化學習的過度優化。

圖1-5 微調過程示意圖
大模型在訓練和計算方面采用了大規模的分布式計算集群和高性能GPU,主要使用了數據并行、流水線并行和張量并行的策略,使得它能夠進行大規模的訓練和推理,快速響應用戶的請求,在幾秒內回復用戶的復雜任務。
在GPT系列發布后,研發團隊不斷努力改進其效果,從GPT-1、GPT-2、GPT-3到爆火的GPT-3.5,再到如今的GPT-4和GPT-4 Turbo,一直在修復偏見、妄想、計算不準確等問題,并通過迭代和微調來提高模型的性能和適應性,以確保其更好地滿足用戶需求。
總而言之,大模型之所以如此強大,是因為它匯聚了大規模的數據、深度的神經網絡、不斷地學習反饋、強大的計算資源及持續的改進。這個“超級大腦”能夠跨越多領域,穿越古今,用以探索、創造和解決各種問題。