- AI自動化測試:技術原理、平臺搭建與工程實踐
- 騰訊TuringLab團隊
- 11字
- 2020-08-13 13:47:05
3.2 基于值函數的強化學習
3.2.1 值函數
在強化學習中,為了使智能體學到一個好策略,需要賦予智能體評估策略好壞的能力。一種最直接的方式就是在某個特定的狀態下,為每次動作賦予相應的評估價值。如果在該狀態下采取某一動作后,未來能夠獲得的累積獎勵期望值越高,那么這個動作的評估價值就越大。
我們可以使用動作值函數Qπ(s,a)對動作進行價值評估:

也就是智能體在狀態s采取某一特定的動作a后可以得到評估價值Qπ(s,a)。相應地,每個狀態的價值可以定義為從當前狀態到終止狀態能夠獲得的累積獎勵的期望,稱為狀態值函數Vπ(s):

Qπ(s,a)和Vπ(s)之間的相對關系可以使用Bellman方程表示:

由于值函數是對具體狀態和動作進行價值評估,因此,基于值函數的強化學習方法不適用于動作空間連續的強化學習問題。
推薦閱讀
- Android和PHP開發最佳實踐(第2版)
- JavaScript語言精髓與編程實踐(第3版)
- Web Development with Django Cookbook
- PHP+MySQL網站開發技術項目式教程(第2版)
- 新編Premiere Pro CC從入門到精通
- 軟件項目管理實用教程
- PhoneGap Mobile Application Development Cookbook
- 劍指MySQL:架構、調優與運維
- Python算法從菜鳥到達人
- Arduino計算機視覺編程
- JavaScript+jQuery網頁特效設計任務驅動教程
- Fastdata Processing with Spark
- UX Design for Mobile
- 從零開始:C語言快速入門教程
- 深入淺出 HTTPS:從原理到實戰