- 深度強化學習算法與實踐:基于PyTorch的實現
- 張校捷編著
- 249字
- 2022-05-06 17:08:30
1.3.3 在線(On-policy)算法和離線(Off-policy)算法
由于深度強化學習算法需要對智能體的狀態、動作和獲得的獎勵進行采樣,因此需要采集數據。根據采集數據訓練的方法不同,我們把算法分為在線算法和離線算法兩種。
在線算法典型的就是基于策略梯度神經網絡的算法,在訓練的同時,策略因為訓練會不斷發生改變,需要對改變的策略進行重新采樣,這樣按照不斷改變的策略進行采樣,即為在線采樣的一種。而很多價值神經網絡的訓練是基于離線的算法。通過固定的策略對環境進行采樣后的結果,在離線算法中可以直接用來對模型進行訓練,讓模型能夠學習到價值函數。
推薦閱讀
- Dynamics 365 Application Development
- Boost C++ Application Development Cookbook(Second Edition)
- Developing Mobile Web ArcGIS Applications
- Mastering Kotlin
- 區塊鏈:以太坊DApp開發實戰
- Mastering Julia
- Learning Selenium Testing Tools(Third Edition)
- 表哥的Access入門:以Excel視角快速學習數據庫開發(第2版)
- 開源項目成功之道
- OpenCV with Python By Example
- Oracle Data Guard 11gR2 Administration Beginner's Guide
- 玩轉.NET Micro Framework移植:基于STM32F10x處理器
- Application Development with Swift
- Modular Programming with JavaScript
- Design Patterns and Best Practices in Java