官术网_书友最值得收藏!

3.3 基于策略梯度的強化學習

與基于值函數的強化學習方法相對應的是基于策略梯度的強化學習方法,這類方法不會評價策略的好壞,而是使用采樣的方法直接優化策略,使其向著更大的累積獎勵期望的目標改進。

主站蜘蛛池模板: 鲜城| 中方县| 广昌县| 曲麻莱县| 余姚市| 横峰县| 全南县| 云霄县| 六安市| 西丰县| 开化县| 高淳县| 通州区| 蒙阴县| 元氏县| 中卫市| 饶平县| 闽侯县| 五家渠市| 千阳县| 焦作市| 泰来县| 慈溪市| 余庆县| 北流市| 义乌市| 舞阳县| 伊金霍洛旗| 张家口市| 伊春市| 台山市| 巴楚县| 长乐市| 从化市| 普安县| 伊吾县| 呼图壁县| 西峡县| 吉木萨尔县| 额尔古纳市| 禄丰县|