pg电子在线

書名： AI自動化測試：技術(shù)原理、平臺搭建與工程實踐
作者名：騰訊TuringLab團隊
本章字數(shù)： 311字
更新時間： 2020-08-13 13:47:05

3.2　基于值函數(shù)的強化學(xué)習(xí)

3.2.1　值函數(shù)

在強化學(xué)習(xí)中，為了使智能體學(xué)到一個好策略，需要賦予智能體評估策略好壞的能力。一種最直接的方式就是在某個特定的狀態(tài)下，為每次動作賦予相應(yīng)的評估價值。如果在該狀態(tài)下采取某一動作后，未來能夠獲得的累積獎勵期望值越高，那么這個動作的評估價值就越大。

我們可以使用動作值函數(shù)Q_π（s,a）對動作進行價值評估：

也就是智能體在狀態(tài)s采取某一特定的動作a后可以得到評估價值Q_π(s,a)。相應(yīng)地，每個狀態(tài)的價值可以定義為從當前狀態(tài)到終止狀態(tài)能夠獲得的累積獎勵的期望，稱為狀態(tài)值函數(shù)V_π(s)：

Q_π(s,a)和V_π(s)之間的相對關(guān)系可以使用Bellman方程表示：

由于值函數(shù)是對具體狀態(tài)和動作進行價值評估，因此，基于值函數(shù)的強化學(xué)習(xí)方法不適用于動作空間連續(xù)的強化學(xué)習(xí)問題。

官术网_书友最值得收藏!

AI自動化測試：技術(shù)原理、平臺搭建與工程實踐

3.2 基于值函數(shù)的強化學(xué)習(xí)

3.2.1 值函數(shù)

3.2　基于值函數(shù)的強化學(xué)習(xí)

3.2.1　值函數(shù)