- AI自動化測試:技術原理、平臺搭建與工程實踐
- 騰訊TuringLab團隊
- 93字
- 2020-08-13 13:47:05
3.3 基于策略梯度的強化學習
與基于值函數的強化學習方法相對應的是基于策略梯度的強化學習方法,這類方法不會評價策略的好壞,而是使用采樣的方法直接優化策略,使其向著更大的累積獎勵期望的目標改進。
推薦閱讀
- Java程序設計與開發
- 移動UI設計(微課版)
- 零基礎PHP學習筆記
- 圖解Java數據結構與算法(微課視頻版)
- x86匯編語言:從實模式到保護模式(第2版)
- PySide GUI Application Development(Second Edition)
- C語言課程設計
- Keras深度學習實戰
- Create React App 2 Quick Start Guide
- Node.js:來一打 C++ 擴展
- Django 3.0應用開發詳解
- QPanda量子計算編程
- Penetration Testing with the Bash shell
- Mudbox 2013 Cookbook
- Instant Automapper