官术网_书友最值得收藏!

2.4 本章小結

基于值函數的策略學習算法與策略搜索算法是無模型強化學習領域的兩大范式。本章簡要介紹了基于值函數的策略學習算法,其中包括值函數的基本概念、策略迭代、值迭代及迭代框架,以及經典的 Q-learning 和基于最小二乘法的策略迭代算法;策略搜索算法中介紹了傳統策略梯度算法、自然策略梯度方法及期望最大化的策略搜索方法。

在后續章節中,我們將基于本章介紹的基本概念及模型展開對策略搜索算法的詳細分析及介紹,如第3章關于策略梯度算法的改進方法——基于參數探索的策略梯度算法及其最優基線[28][29],第4章關于樣本重復使用的策略梯度算法[30],第5章關于正則化策略梯度算法[31],第6章基于參數探索的策略梯度算法的采樣技術[32]

主站蜘蛛池模板: 中阳县| 德化县| 棋牌| 房产| 开封市| 怀柔区| 登封市| 洪江市| 天津市| 尼勒克县| 肥城市| 宿松县| 诸城市| 普定县| 天全县| 宝鸡市| 寿阳县| 西乌珠穆沁旗| 贵州省| 嘉义县| 保亭| 长武县| 平武县| 临沂市| 洛宁县| 外汇| 长治县| 五常市| 大田县| 永登县| 枝江市| 双柏县| 潞西市| 海阳市| 思茅市| 临西县| 洱源县| 屏东市| 松江区| 鄂州市| 宁强县|