冰球突破豪华版是什么游戏

書名：統計策略搜索強化學習方法及應用
作者名：趙婷婷
本章字數： 291字
更新時間： 2021-10-29 12:05:25

2.4 本章小結

基于值函數的策略學習算法與策略搜索算法是無模型強化學習領域的兩大范式。本章簡要介紹了基于值函數的策略學習算法，其中包括值函數的基本概念、策略迭代、值迭代及迭代框架，以及經典的 Q-learning 和基于最小二乘法的策略迭代算法；策略搜索算法中介紹了傳統策略梯度算法、自然策略梯度方法及期望最大化的策略搜索方法。

在后續章節中，我們將基于本章介紹的基本概念及模型展開對策略搜索算法的詳細分析及介紹，如第3章關于策略梯度算法的改進方法——基于參數探索的策略梯度算法及其最優基線^[28][29]，第4章關于樣本重復使用的策略梯度算法^[30]，第5章關于正則化策略梯度算法^[31]，第6章基于參數探索的策略梯度算法的采樣技術^[32]。

官术网_书友最值得收藏!

統計策略搜索強化學習方法及應用

2.4 本章小結