- 統計策略搜索強化學習方法及應用
- 趙婷婷
- 291字
- 2021-10-29 12:05:25
2.4 本章小結
基于值函數的策略學習算法與策略搜索算法是無模型強化學習領域的兩大范式。本章簡要介紹了基于值函數的策略學習算法,其中包括值函數的基本概念、策略迭代、值迭代及迭代框架,以及經典的 Q-learning 和基于最小二乘法的策略迭代算法;策略搜索算法中介紹了傳統策略梯度算法、自然策略梯度方法及期望最大化的策略搜索方法。
在后續章節中,我們將基于本章介紹的基本概念及模型展開對策略搜索算法的詳細分析及介紹,如第3章關于策略梯度算法的改進方法——基于參數探索的策略梯度算法及其最優基線[28][29],第4章關于樣本重復使用的策略梯度算法[30],第5章關于正則化策略梯度算法[31],第6章基于參數探索的策略梯度算法的采樣技術[32]。
推薦閱讀
- AutoCAD快速入門與工程制圖
- Practical Data Wrangling
- 機器人智能運動規劃技術
- 機器自動化控制器原理與應用
- 工業機器人入門實用教程(KUKA機器人)
- SharePoint 2010開發最佳實踐
- Photoshop CS3圖像處理融會貫通
- Associations and Correlations
- ESP8266 Home Automation Projects
- Visual Basic.NET程序設計
- Mastering ServiceNow Scripting
- Machine Learning with the Elastic Stack
- 軟件工程及實踐
- 網絡存儲·數據備份與還原
- C++程序設計基礎(上)