官术网_书友最值得收藏!

1.3.3 在線(On-policy)算法和離線(Off-policy)算法

由于深度強化學習算法需要對智能體的狀態、動作和獲得的獎勵進行采樣,因此需要采集數據。根據采集數據訓練的方法不同,我們把算法分為在線算法和離線算法兩種。

在線算法典型的就是基于策略梯度神經網絡的算法,在訓練的同時,策略因為訓練會不斷發生改變,需要對改變的策略進行重新采樣,這樣按照不斷改變的策略進行采樣,即為在線采樣的一種。而很多價值神經網絡的訓練是基于離線的算法。通過固定的策略對環境進行采樣后的結果,在離線算法中可以直接用來對模型進行訓練,讓模型能夠學習到價值函數。

主站蜘蛛池模板: 盐池县| 清新县| 建德市| 会泽县| 南江县| 富民县| 上蔡县| 伊宁市| 视频| 湄潭县| 咸阳市| 贵港市| 开阳县| 赣州市| 民丰县| 江西省| 和田市| 永靖县| 合川市| 北流市| 漳浦县| 苗栗市| 小金县| 鲁山县| 黄浦区| 会泽县| 仁怀市| 庄浪县| 盐城市| 晋州市| 绥棱县| 巴里| 延安市| 宁陵县| 含山县| 河源市| 分宜县| 江达县| 壤塘县| 桃园市| 定结县|