官术网_书友最值得收藏!

3.2 基于值函數的強化學習

3.2.1 值函數

在強化學習中,為了使智能體學到一個好策略,需要賦予智能體評估策略好壞的能力。一種最直接的方式就是在某個特定的狀態下,為每次動作賦予相應的評估價值。如果在該狀態下采取某一動作后,未來能夠獲得的累積獎勵期望值越高,那么這個動作的評估價值就越大。

我們可以使用動作值函數Qπ(s,a)對動作進行價值評估:

也就是智能體在狀態s采取某一特定的動作a后可以得到評估價值Qπ(s,a)。相應地,每個狀態的價值可以定義為從當前狀態到終止狀態能夠獲得的累積獎勵的期望,稱為狀態值函數Vπ(s):

Qπ(s,a)和Vπ(s)之間的相對關系可以使用Bellman方程表示:

由于值函數是對具體狀態和動作進行價值評估,因此,基于值函數的強化學習方法不適用于動作空間連續的強化學習問題。

主站蜘蛛池模板: 大邑县| 潮州市| 武宣县| 哈巴河县| 靖安县| 普兰县| 厦门市| 湖口县| 青州市| 襄樊市| 河源市| 囊谦县| 津南区| 棋牌| 滦南县| 越西县| 保靖县| 三亚市| 浦东新区| 西青区| 曲靖市| 如皋市| 余姚市| 陆川县| 道孚县| 安远县| 家居| 张家川| 平顶山市| 常宁市| 双牌县| 安泽县| 正阳县| 乐都县| 洮南市| 安化县| 板桥市| 霍林郭勒市| 普陀区| 兴文县| 安康市|