- 深度強化學習算法與實踐:基于PyTorch的實現
- 張校捷編著
- 343字
- 2022-05-06 17:08:29
1.3.2 基于策略的(Policy-Based)和基于價值的(Value-Based)
深度強化學習中的模型主要可以分為兩類,第一類是基于策略的,第二類則是基于價值的。
在第一類模型中,通過使用神經網絡對策略進行擬合,可以通過輸入當前模型的狀態,對智能體的下一步動作進行決策,通過使用神經網絡輸出的策略,并且使用策略梯度(Policy Gradient)對策略進行不斷優化,可以讓策略神經網絡預測出最優的策略,最后讓智能體通過采取這些策略來獲取盡可能大的獎勵,典型的算法如A3C算法。
在第二類模型中,主要擬合的是價值函數和動作-價值函數,通過估計不同的狀態所處的價值,然后盡可能讓智能體處于價值高的狀態,這樣就能獲取最多的獎勵,典型的算法如DQN算法。需要注意的是,有些網絡可能綜合了策略網絡和機制網絡的特點,典型的如SAC算法,會同時訓練策略網絡和價值網絡,能夠加快算法的收斂。
推薦閱讀
- Android Jetpack開發:原理解析與應用實戰
- Spring Cloud Alibaba微服務架構設計與開發實戰
- Hands-On Data Structures and Algorithms with JavaScript
- Java 9 Programming Blueprints
- FFmpeg入門詳解:音視頻流媒體播放器原理及應用
- 營銷數據科學:用R和Python進行預測分析的建模技術
- C語言程序設計立體化案例教程
- Practical Game Design
- Learning Probabilistic Graphical Models in R
- Create React App 2 Quick Start Guide
- 匯編語言編程基礎:基于LoongArch
- Modern C++ Programming Cookbook
- Python Interviews
- Advanced UFT 12 for Test Engineers Cookbook
- 區塊鏈架構之美:從比特幣、以太坊、超級賬本看區塊鏈架構設計