手机版捕鱼赢话费

書名：深度強化學習算法與實踐：基于PyTorch的實現
作者名：張校捷編著
本章字數： 249字
更新時間： 2022-05-06 17:08:30

1.3.3 在線（On-policy）算法和離線（Off-policy）算法

由于深度強化學習算法需要對智能體的狀態、動作和獲得的獎勵進行采樣，因此需要采集數據。根據采集數據訓練的方法不同，我們把算法分為在線算法和離線算法兩種。

在線算法典型的就是基于策略梯度神經網絡的算法，在訓練的同時，策略因為訓練會不斷發生改變，需要對改變的策略進行重新采樣，這樣按照不斷改變的策略進行采樣，即為在線采樣的一種。而很多價值神經網絡的訓練是基于離線的算法。通過固定的策略對環境進行采樣后的結果，在離線算法中可以直接用來對模型進行訓練，讓模型能夠學習到價值函數。

官术网_书友最值得收藏!

深度強化學習算法與實踐：基于PyTorch的實現

1.3.3 在線（On-policy）算法和離線（Off-policy）算法