官术网_书友最值得收藏!

3.2 基于值函數(shù)的強化學(xué)習(xí)

3.2.1 值函數(shù)

在強化學(xué)習(xí)中,為了使智能體學(xué)到一個好策略,需要賦予智能體評估策略好壞的能力。一種最直接的方式就是在某個特定的狀態(tài)下,為每次動作賦予相應(yīng)的評估價值。如果在該狀態(tài)下采取某一動作后,未來能夠獲得的累積獎勵期望值越高,那么這個動作的評估價值就越大。

我們可以使用動作值函數(shù)Qπ(s,a)對動作進行價值評估:

也就是智能體在狀態(tài)s采取某一特定的動作a后可以得到評估價值Qπ(s,a)。相應(yīng)地,每個狀態(tài)的價值可以定義為從當前狀態(tài)到終止狀態(tài)能夠獲得的累積獎勵的期望,稱為狀態(tài)值函數(shù)Vπ(s):

Qπ(s,a)和Vπ(s)之間的相對關(guān)系可以使用Bellman方程表示:

由于值函數(shù)是對具體狀態(tài)和動作進行價值評估,因此,基于值函數(shù)的強化學(xué)習(xí)方法不適用于動作空間連續(xù)的強化學(xué)習(xí)問題。

主站蜘蛛池模板: 南和县| 长岭县| 嘉峪关市| 文成县| 临漳县| 曲靖市| 女性| 普陀区| 崇义县| 双桥区| 巨野县| 西畴县| 嘉黎县| 白沙| 和林格尔县| 安宁市| 台前县| 梁平县| 惠来县| 轮台县| 疏勒县| 宝兴县| 调兵山市| 喀喇沁旗| 黄山市| 信阳市| 德庆县| 罗源县| 嘉善县| 冀州市| 乾安县| 水城县| 冕宁县| 罗田县| 周口市| 桃园县| 柳州市| 宁强县| 福清市| 高雄市| 固原市|