飞飞辅助官方网站

書名： AI自動(dòng)化測(cè)試：技術(shù)原理、平臺(tái)搭建與工程實(shí)踐
作者名：騰訊TuringLab團(tuán)隊(duì)
本章字?jǐn)?shù)： 328字
更新時(shí)間： 2020-08-13 13:47:06

3.3.1　策略梯度

策略梯度的思想是把策略π參數(shù)化為π_θ，將累積獎(jiǎng)勵(lì)的期望作為目標(biāo)函數(shù)L(π_θ)：

并計(jì)算出關(guān)于策略的梯度，沿著梯度的方向不斷調(diào)整動(dòng)作，逐漸得到最優(yōu)策略。

策略梯度會(huì)考慮在當(dāng)前策略之后所有可能出現(xiàn)的軌跡，并求取這些軌跡對(duì)應(yīng)的平均累積獎(jiǎng)勵(lì)。在進(jìn)行單步動(dòng)作時(shí)，需要對(duì)累積獎(jiǎng)勵(lì)在狀態(tài)空間和動(dòng)作空間上求關(guān)于狀態(tài)轉(zhuǎn)移概率和策略的二重積分：

其中，R（s,a）表示在狀態(tài)s下采取動(dòng)作a時(shí)得到的獎(jiǎng)勵(lì)，表示在策略π下狀態(tài)s的轉(zhuǎn)移概率。在進(jìn)行連續(xù)N步動(dòng)作時(shí)，我們可以使用Q值函數(shù)替代R(s,a)：

在實(shí)際運(yùn)算中，由于我們無(wú)法對(duì)狀態(tài)和動(dòng)作的二重積分進(jìn)行直接計(jì)算，因此，可以使用一種相對(duì)簡(jiǎn)單的處理方式，即使用蒙特卡洛采樣法對(duì)梯度進(jìn)行估計(jì)，采樣m條軌跡，每條軌跡對(duì)應(yīng)T步動(dòng)作，求取平均目標(biāo)函數(shù)梯度：

官术网_书友最值得收藏!

AI自動(dòng)化測(cè)試：技術(shù)原理、平臺(tái)搭建與工程實(shí)踐

3.3.1 策略梯度

3.3.1　策略梯度