- AI自動化測試:技術(shù)原理、平臺搭建與工程實踐
- 騰訊TuringLab團隊
- 311字
- 2020-08-13 13:47:05
3.2 基于值函數(shù)的強化學(xué)習(xí)
3.2.1 值函數(shù)
在強化學(xué)習(xí)中,為了使智能體學(xué)到一個好策略,需要賦予智能體評估策略好壞的能力。一種最直接的方式就是在某個特定的狀態(tài)下,為每次動作賦予相應(yīng)的評估價值。如果在該狀態(tài)下采取某一動作后,未來能夠獲得的累積獎勵期望值越高,那么這個動作的評估價值就越大。
我們可以使用動作值函數(shù)Qπ(s,a)對動作進行價值評估:

也就是智能體在狀態(tài)s采取某一特定的動作a后可以得到評估價值Qπ(s,a)。相應(yīng)地,每個狀態(tài)的價值可以定義為從當前狀態(tài)到終止狀態(tài)能夠獲得的累積獎勵的期望,稱為狀態(tài)值函數(shù)Vπ(s):

Qπ(s,a)和Vπ(s)之間的相對關(guān)系可以使用Bellman方程表示:

由于值函數(shù)是對具體狀態(tài)和動作進行價值評估,因此,基于值函數(shù)的強化學(xué)習(xí)方法不適用于動作空間連續(xù)的強化學(xué)習(xí)問題。
推薦閱讀
- 從零開始構(gòu)建企業(yè)級RAG系統(tǒng)
- 程序員面試白皮書
- Building a RESTful Web Service with Spring
- Offer來了:Java面試核心知識點精講(原理篇)
- 三維圖形化C++趣味編程
- JavaScript+jQuery開發(fā)實戰(zhàn)
- Java程序員面試算法寶典
- Learning Laravel 4 Application Development
- Python機器學(xué)習(xí)編程與實戰(zhàn)
- AppInventor實踐教程:Android智能應(yīng)用開發(fā)前傳
- Android開發(fā):從0到1 (清華開發(fā)者書庫)
- Integrating Facebook iOS SDK with Your Application
- 深入分布式緩存:從原理到實踐
- Unity 2017 Mobile Game Development
- Java Web開發(fā)實例大全(基礎(chǔ)卷) (軟件工程師開發(fā)大系)