官术网_书友最值得收藏!

1.2 ChatGPT的工作流程

ChatGPT的工作流程可以總結為以下三步。

第一步,有監督的調優(Supervised Fine-Tuning,SFT)。預訓練的語言模型在少量已標注的數據上進行調優,以學習從給定的提示列表中生成的有監督的策略。

在這一步中,ChatGPT使用預訓練的語言模型在少量已標注的數據上進行調優。具體來說,它基于一個給定的提示(對話或問題)生成響應,并在訓練數據上進行有監督的學習,以提高在給定提示下生成正確響應的概率。

第二步,模擬人類偏好(Mimicking Human Preferences)。標注者對大量的SFT模型輸出進行投票,由此創建了一個由比較數據組成的新數據集。在此數據集上訓練新模型,被稱為訓練回報模型(Reward Model,RM)。

在這一步中,ChatGPT的SFT模型生成大量的響應,這些響應可能包含一些不自然或不合適的內容。為了改進模型的表現,標注者對這些響應進行投票,以決定哪些響應符合人類的偏好。

第三步,近端策略優化(Proximal Policy Optimization,PPO)。訓練回報模型用于進一步調優和改進SFT模型,輸出的結果是策略模式。

在這一步中,ChatGPT使用訓練回報模型來進一步調優和改進SFT模型,以更好地滿足人類的期望。具體來說,ChatGPT使用PPO算法(一種強化學習算法)在訓練回報模型上訓練,以獲得更好的策略模式。

在當前最佳策略模型上收集更多的比較數據,用于訓練新的訓練回報模型,并訓練新的策略。以上三步可以持續重復進行,以不斷提高ChatGPT的性能。在每個步驟中,模型會學習從輸入到輸出的映射,以便在給定一個提示后生成最合適的響應。

主站蜘蛛池模板: 宣武区| 海门市| 九龙坡区| 石台县| 杭锦旗| 新宾| 曲水县| 平舆县| 安义县| 靖州| 三台县| 安化县| 尤溪县| 津南区| 靖远县| 柞水县| 济源市| 黄骅市| 五大连池市| 商都县| 三明市| 青州市| 黄陵县| 朝阳市| 滨海县| 湖南省| 瓮安县| 永仁县| 永清县| 精河县| 沛县| 淮南市| 株洲市| 石台县| 海宁市| 闵行区| 阿拉善左旗| 若尔盖县| 尚义县| 丹阳市| 宁蒗|