官术网_书友最值得收藏!

<menuitem id="hlg8j"></menuitem><small id="hlg8j"></small>

<menuitem id="hlg8j"></menuitem>

書名： AI自動化測試：技術原理、平臺搭建與工程實踐
作者名：騰訊TuringLab團隊
本章字數： 806字
更新時間： 2020-08-13 13:47:06

3.3.3　DDPG

對于離散和低維的動作空間，我們可以使用DQN進行策略學習。然而，許多任務有著連續和高維的動作空間，如果要將DQN運用于連續域，一種方法就是把動作空間離散化，但是這會帶來維數災難。因為動作的數量會隨著自由度的增加而呈指數倍增長，進而給訓練過程帶來很大困難。此外，單純地對動作空間進行離散化會去除關于動作的結構信息。

為解決上述問題，2015年Lillicrap等人[1]將DQN的思想應用到連續動作中，提出了一種基于確定性策略梯度和演員-評論家的無模型算法——深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）。

DDPG借鑒了DQN的技術，采用經驗回放和目標網絡技術，減少了數據之間的相關性，增加了算法的穩定性和健壯性。雖然DDPG借鑒了DQN的思想，但是要直接將Q-learning應用到連續動作空間是不可能的，因此DDPG采用的是基于確定性策略梯度的演員-評論家方法。

DDPG采用的經驗回放技術和DQN完全相同，但是目標網絡的更新方式與DQN有所不同。DQN的目標網絡是每隔N步和Q網絡同步更新一次，而在DDPG中演員和評論家各自的目標網絡參數θ-和ω-是通過緩慢變化的方式更新，不直接復制參數，以此進一步增加學習過程的穩定性，如下式所示：

在連續動作空間學習策略的主要挑戰是如何有效地進行動作探索。由于DDPG使用的是Off-policy策略學習方法，因此可以通過額外增加一個噪聲項N來構建一個探索策略：

綜上所述，DDPG算法的演員網絡參數θ和評論家網絡參數ω的更新公式如下所示：

如圖3-5所示，在網絡結構上，與DQN相比，DDPG除了Q網絡之外還多了一個策略網絡，策略網絡的輸出為π(s)。同時，DQN的輸入僅是連續的視頻幀而不需要額外輸入動作，每個離散動作都有一個單獨的輸出單元。而DDPG的Q網絡則是在輸入連續的視頻幀后通過卷積神經網絡得到特征，再輸入動作a，最后輸出Q值。

圖3-5　DDPG的網絡結構示意

DDPG的一個關鍵優點就是簡潔，這使它能夠很容易地應用到更復雜的問題中。不過DDPG也有一些局限性，最明顯的就是它與大多數無模型的強化學習方法一樣，需要大量的訓練時間才能收斂。

[1] Lillicrap T P,Hunt J J，Pritzel A,et al.Continnons Control with Deep Reinforcement Learning[J].Computer Science,2015,8(6):A187.

主站蜘蛛池模板：沛县| 商丘市| 益阳市| 南华县| 吐鲁番市| 太仓市| 合阳县| 常宁市| 布尔津县| 屯昌县| 孝感市| 岱山县| 长兴县| 乌拉特后旗| 钟山县| 红桥区| 碌曲县| 龙井市| 朝阳区| 江西省| 林州市| 博爱县| 元阳县| 米林县| 宁晋县| 贵州省| 曲水县| 高台县| 大城县| 兴和县| 汉沽区| 昌都县| 宁陵县| 陈巴尔虎旗| 扎鲁特旗| 东丰县| 高密市| 牡丹江市| 吴江市| 湖南省| 外汇|

<object id="cemoc"></object>

<td id="cemoc"></td>