- 統計策略搜索強化學習方法及應用
- 趙婷婷
- 1431字
- 2021-10-29 12:05:23
1.5 本書結構
本書共包含三部分主要內容:第一部分介紹本書研究背景及相關理論知識,具體內容詳見第1章和第2章;第二部分是理論算法研究,我們針對不同場景,提出具體的策略搜索算法,分析算法中估計量和學習參數的統計特性,并對算法進行應用示例展示及定量比較,具體內容在第3~6章進行講解。第三部分是應用研究,我們結合強化學習前沿技術將本書所提出的策略搜索算法應用到智能機器人控制及數字藝術渲染領域,具體內容詳見第7章和第8章。本書內容共分為8章,具體結構安排如下。
第1章為本書的前言。我們首先介紹有關強化學習背景及研究意義,重點闡述強化學習在機器學習及智能控制領域中的應用,并說明研究意義和優勢;其次,分析強化學習領域的分支;最后給出本書的主要貢獻和總體結構安排。
在第2章中,我們給出了強化學習問題的數學公式,并回顧了一些現有的經典算法。強化學習問題在2.1節中得到了形式化描述。然后,我們回顧了強化學習的兩種基本范式;在2.2節中我們回顧了策略迭代中的經典方法,其中我們給出了值函數的定義、策略迭代方法的框架,以及一種經典的策略迭代算法,即最小二乘策略迭代;在2.3節中,我們回顧了傳統策略梯度算法(PEINFORCE 算法)、自然策略梯度方法、基于 EM 的策略搜索方法以及基于策略梯度的深度強化學習方法;2.4節給出了本章小結。
在第3章中,我們對策略梯度法的穩定性進行了分析和改進。3.1節描述了研究動機和背景知識。3.2節介紹基于參數探索的策略梯度算法(PGPE 算法)。3.3節研究了 REINFORCE算法和 PGPE算法的理論性能。更具體地說,我們從理論上證明在較弱的條件下,PGPE 算法比 REINFORCE 算法提供了更穩定的梯度估計。在3.4節中,我們通過推導最優基線進一步提高了 PGPE 算法的性能,并從梯度估計的方差方面對具有最優基線的 PGPE 算法進行了理論分析。隨后,我們在3.5節通過實驗證明了改進的 PGPE 算法的有效性。最后,3.6節給出了本章小結,并對相關的論點進行討論。
在第4章中,我們提出了一種新的具有有效樣本重用的策略梯度算法(IW-PGPE算法)。第4.1節給出了動機和背景知識。在4.2節中,我們系統地將 PGPE 算法與重要采樣和最優常數基線相結合,給出了一種高效實用的算法,并從理論上證明了引入最優常數基線可以在某些條件下緩解重要權重的方差較大的問題。隨后,在4.3節中,我們通過大量實驗結果驗證了所提方法的有效性,此外,我們在4.3.3節通過人形機器人的虛擬仿真實驗再次證實了該方法在高維問題上的有效性。最后,我們在4.4節對本章進行總結。
在第5章中,我們提出正則化策略梯度算法(R-PGPE算法),通過直接使用策略梯度的方差作為正則化項來降低梯度估計的方差。我們在5.1節介紹研究背景。第5.2節描述正則化策略梯度算法,其中首先在5.2.1節定義框架下的目標函數,然后在5.2.2節對目標函數的梯度進行推導。5.3節通過示例驗證所提算法有效性。最后,在5.4節總結本章內容。
在第6章中,我們討論基于參數探索的策略梯度算法的采樣技術。6.1節介紹研究動機。6.2節首先回顧 PGPE算法中的基線及最優基線采樣,再給出具有對稱采樣樣本的 PGPE 算法,并將其繼續拓展到超對稱采樣樣本算法。6.3節通過示例結果驗證對稱采樣技術的有效性。最后,在6.4節對本章進行總結。
最后,第7章和第8章給出了本書所討論的策略搜索算法在智能控制領域的應用研究。首先,第7章將我們提出的遞歸 IW-PGPE 算法應用于真實的人形機器人 CB-i,并成功實現了兩個具有挑戰性的控制任務;其次,第8章通過正則化參數探索策略梯度算法(R-PGPE 算法)與逆強化學習的結合,捕獲藝術家的繪畫風格,得到筆觸生成策略,動態地實現了個性風格的水墨畫藝術風格轉化。