官术网_书友最值得收藏!

第2章 相關(guān)研究及背景知識(shí)

本章將介紹強(qiáng)化學(xué)習(xí)相關(guān)理論背景知識(shí)和經(jīng)典算法。首先介紹馬爾可夫決策過(guò)程的基本構(gòu)成及其動(dòng)態(tài)過(guò)程;然后闡述現(xiàn)階段強(qiáng)化學(xué)習(xí)的經(jīng)典算法,包括基于值函數(shù)的策略學(xué)習(xí)算法和策略搜索算法,并對(duì)強(qiáng)化學(xué)習(xí)與其他深度學(xué)習(xí)方法結(jié)合取得的成果進(jìn)行介紹;最后,對(duì)策略搜索方法及基于值函數(shù)的策略學(xué)習(xí)算法的優(yōu)缺點(diǎn)進(jìn)行分析總結(jié)。

主站蜘蛛池模板: 祥云县| 紫金县| 怀化市| 枞阳县| 城口县| 西乌| 三门县| 永州市| 福州市| 泸定县| 天峨县| 博爱县| 大荔县| 荆门市| 淮北市| 海兴县| 柏乡县| 旬阳县| 天柱县| 嘉祥县| 绥芬河市| 繁峙县| 兴仁县| 始兴县| 东宁县| 锦州市| 金塔县| 永康市| 随州市| 镇坪县| 大同市| 兴安盟| 岱山县| 綦江县| 孟村| 临安市| 阳朔县| 尖扎县| 满城县| 互助| 兴仁县|