官术网_书友最值得收藏!

3.3.1 策略梯度

策略梯度的思想是把策略π參數(shù)化為πθ,將累積獎(jiǎng)勵(lì)的期望作為目標(biāo)函數(shù)L(πθ):

并計(jì)算出關(guān)于策略的梯度,沿著梯度的方向不斷調(diào)整動(dòng)作,逐漸得到最優(yōu)策略。

策略梯度會(huì)考慮在當(dāng)前策略之后所有可能出現(xiàn)的軌跡,并求取這些軌跡對(duì)應(yīng)的平均累積獎(jiǎng)勵(lì)。在進(jìn)行單步動(dòng)作時(shí),需要對(duì)累積獎(jiǎng)勵(lì)在狀態(tài)空間和動(dòng)作空間上求關(guān)于狀態(tài)轉(zhuǎn)移概率和策略的二重積分:

其中,R(s,a)表示在狀態(tài)s下采取動(dòng)作a時(shí)得到的獎(jiǎng)勵(lì),表示在策略π下狀態(tài)s的轉(zhuǎn)移概率。在進(jìn)行連續(xù)N步動(dòng)作時(shí),我們可以使用Q值函數(shù)替代R(s,a):

在實(shí)際運(yùn)算中,由于我們無(wú)法對(duì)狀態(tài)和動(dòng)作的二重積分進(jìn)行直接計(jì)算,因此,可以使用一種相對(duì)簡(jiǎn)單的處理方式,即使用蒙特卡洛采樣法對(duì)梯度進(jìn)行估計(jì),采樣m條軌跡,每條軌跡對(duì)應(yīng)T步動(dòng)作,求取平均目標(biāo)函數(shù)梯度:

主站蜘蛛池模板: 定西市| 潜江市| 岳阳市| 石台县| 江门市| 克拉玛依市| 麻城市| 岑溪市| 格尔木市| 四子王旗| 卓资县| 屏南县| 泸溪县| 锡林浩特市| 丰城市| 沂源县| 五大连池市| 长泰县| 乌拉特前旗| 教育| 尉犁县| 盐亭县| 龙山县| 东海县| 民丰县| 肇州县| 井研县| 宽城| 义马市| 巴彦淖尔市| 五华县| 宣武区| 安丘市| 玛沁县| 鞍山市| 巨野县| 岳池县| 凉城县| 磴口县| 蚌埠市| 商丘市|