官术网_书友最值得收藏!

1.3.2 基于策略的(Policy-Based)和基于價值的(Value-Based)

深度強化學習中的模型主要可以分為兩類,第一類是基于策略的,第二類則是基于價值的。

在第一類模型中,通過使用神經網絡對策略進行擬合,可以通過輸入當前模型的狀態,對智能體的下一步動作進行決策,通過使用神經網絡輸出的策略,并且使用策略梯度(Policy Gradient)對策略進行不斷優化,可以讓策略神經網絡預測出最優的策略,最后讓智能體通過采取這些策略來獲取盡可能大的獎勵,典型的算法如A3C算法。

在第二類模型中,主要擬合的是價值函數和動作-價值函數,通過估計不同的狀態所處的價值,然后盡可能讓智能體處于價值高的狀態,這樣就能獲取最多的獎勵,典型的算法如DQN算法。需要注意的是,有些網絡可能綜合了策略網絡和機制網絡的特點,典型的如SAC算法,會同時訓練策略網絡和價值網絡,能夠加快算法的收斂。

主站蜘蛛池模板: 临潭县| 阿坝| 定结县| 越西县| 济宁市| 怀集县| 茂名市| 吉林市| 龙岩市| 宁德市| 晋江市| 浮梁县| 阿拉尔市| 濉溪县| 达尔| 专栏| 连山| 阿拉善盟| 岫岩| 奉节县| 延吉市| 宁武县| 万源市| 侯马市| 东安县| 罗山县| 岳池县| 定南县| 唐海县| 故城县| 九江县| 阳新县| 玉溪市| 芜湖市| 栾城县| 鄂托克旗| 留坝县| 阿巴嘎旗| 永清县| 潼关县| 滁州市|