- ChatGPT原理與實戰:大型語言模型的算法、技術和私有化
- 劉聰等
- 575字
- 2023-11-07 16:33:55
1.2 ChatGPT的工作流程
ChatGPT的工作流程可以總結為以下三步。
第一步,有監督的調優(Supervised Fine-Tuning,SFT)。預訓練的語言模型在少量已標注的數據上進行調優,以學習從給定的提示列表中生成的有監督的策略。
在這一步中,ChatGPT使用預訓練的語言模型在少量已標注的數據上進行調優。具體來說,它基于一個給定的提示(對話或問題)生成響應,并在訓練數據上進行有監督的學習,以提高在給定提示下生成正確響應的概率。
第二步,模擬人類偏好(Mimicking Human Preferences)。標注者對大量的SFT模型輸出進行投票,由此創建了一個由比較數據組成的新數據集。在此數據集上訓練新模型,被稱為訓練回報模型(Reward Model,RM)。
在這一步中,ChatGPT的SFT模型生成大量的響應,這些響應可能包含一些不自然或不合適的內容。為了改進模型的表現,標注者對這些響應進行投票,以決定哪些響應符合人類的偏好。
第三步,近端策略優化(Proximal Policy Optimization,PPO)。訓練回報模型用于進一步調優和改進SFT模型,輸出的結果是策略模式。
在這一步中,ChatGPT使用訓練回報模型來進一步調優和改進SFT模型,以更好地滿足人類的期望。具體來說,ChatGPT使用PPO算法(一種強化學習算法)在訓練回報模型上訓練,以獲得更好的策略模式。
在當前最佳策略模型上收集更多的比較數據,用于訓練新的訓練回報模型,并訓練新的策略。以上三步可以持續重復進行,以不斷提高ChatGPT的性能。在每個步驟中,模型會學習從輸入到輸出的映射,以便在給定一個提示后生成最合適的響應。