- AI自動(dòng)化測(cè)試:技術(shù)原理、平臺(tái)搭建與工程實(shí)踐
- 騰訊TuringLab團(tuán)隊(duì)
- 328字
- 2020-08-13 13:47:06
3.3.1 策略梯度
策略梯度的思想是把策略π參數(shù)化為πθ,將累積獎(jiǎng)勵(lì)的期望作為目標(biāo)函數(shù)L(πθ):

并計(jì)算出關(guān)于策略的梯度,沿著梯度的方向不斷調(diào)整動(dòng)作,逐漸得到最優(yōu)策略。
策略梯度會(huì)考慮在當(dāng)前策略之后所有可能出現(xiàn)的軌跡,并求取這些軌跡對(duì)應(yīng)的平均累積獎(jiǎng)勵(lì)。在進(jìn)行單步動(dòng)作時(shí),需要對(duì)累積獎(jiǎng)勵(lì)在狀態(tài)空間和動(dòng)作空間上求關(guān)于狀態(tài)轉(zhuǎn)移概率和策略的二重積分:

其中,R(s,a)表示在狀態(tài)s下采取動(dòng)作a時(shí)得到的獎(jiǎng)勵(lì),表示在策略π下狀態(tài)s的轉(zhuǎn)移概率。在進(jìn)行連續(xù)N步動(dòng)作時(shí),我們可以使用Q值函數(shù)替代R(s,a):

在實(shí)際運(yùn)算中,由于我們無(wú)法對(duì)狀態(tài)和動(dòng)作的二重積分進(jìn)行直接計(jì)算,因此,可以使用一種相對(duì)簡(jiǎn)單的處理方式,即使用蒙特卡洛采樣法對(duì)梯度進(jìn)行估計(jì),采樣m條軌跡,每條軌跡對(duì)應(yīng)T步動(dòng)作,求取平均目標(biāo)函數(shù)梯度:

推薦閱讀
- Learning Neo4j
- C++案例趣學(xué)
- Visual C++程序設(shè)計(jì)學(xué)習(xí)筆記
- Mastering Adobe Captivate 2017(Fourth Edition)
- iOS開發(fā)實(shí)戰(zhàn):從零基礎(chǔ)到App Store上架
- React.js Essentials
- MySQL數(shù)據(jù)庫(kù)基礎(chǔ)實(shí)例教程(微課版)
- Visual C++應(yīng)用開發(fā)
- Linux Device Drivers Development
- 軟件品質(zhì)之完美管理:實(shí)戰(zhàn)經(jīng)典
- Test-Driven JavaScript Development
- Visual Studio Code 權(quán)威指南
- R語(yǔ)言:邁向大數(shù)據(jù)之路(加強(qiáng)版)
- 大數(shù)據(jù)時(shí)代的企業(yè)升級(jí)之道(全3冊(cè))
- Getting Started with RethinkDB