手机版财神捕鱼下载

書名：統計策略搜索強化學習方法及應用
作者名：趙婷婷
本章字數： 2407字
更新時間： 2021-10-29 12:05:23

1.3 強化學習分支

針對強化學習中存在的各種問題，研究人員在提出一系列高效解決算法的同時，也對強化學習的研究領域進行擴展，衍生出分層強化學習、多智能體強化學習、逆強化學習等方法，并借鑒其他機器學習方法的優勢解決強化學習中難解決的問題，如將元學習和強化學習結合的元強化學習，將遷移學習和強化學習結合的遷移強化學習和使用生成對抗網絡完成強化學習任務等方法，本節將詳細介紹上述各子領域。

分層強化學習（Hierarchical Reinforcement Learning，HRL）是強化學習領域的一個分支，是將最終目標分解為多個子任務學習層次化策略，并通過組合多個子任務的策略形成有效的全局策略的方法^[53]。子任務分解有兩種方法：①所有的子問題都是共同解決被分解的任務（Share Tasks）；②不斷把前一個子問題的結果加入下一個子問題解決方案中（Reuse Tasks）。分層強化學習方法大致可分為四種：基于選項的、基于分層抽象機的、基于 MaxQ函數分解的和基于端到端的分層強化學習^[54]。雖然分層強化學習能夠加快問題求解速度，但在處理大規模狀態空間任務時，智能體狀態空間維度的增加會導致學習所需參數數量呈指數增長，造成維度災難（Curse of Dimensionality），消耗大量的計算和存儲資源。

多智能體強化學習（Multi-agent Reinforcement Learning）由多個小的且彼此之間互相聯系協調的系統組成。與分布式人工智能方法相似，多智能體強化學習同樣具有強大的自主性、分布性及協調性，是多智能體系統領域中的重要研究分支之一^[55]。在面對一些真實場景下的復雜決策問題時，單智能體系統的決策能力往往不能單獨完成任務，例如，在擁有多玩家的 Atari2600游戲中，要求多個決策者之間存在相互合作或競爭的關系。因此，在許多特定的情形下，需要將復雜且規模較大的任務分解為多個智能體之間相互合作、通信及競爭的系統。根據智能體間的互動類型及任務類型，多個智能體間的關系可以分為完全合作、完全競爭和混合型，多數情況下采取為每個智能體單獨分配訓練機制的學習方式^[56][57]。盡管多智能體系統已經取得了不錯的成果，但其在大型機器人系統中表現不夠成熟，故可擴展性是多智能體系統未來的重要研究方向。另外，目前大部分多智能體強化學習系統往往假定是滿足 MDP 過程的，對于現實中存在的許多不滿足 MDP 過程的任務，此時智能體的行為是不可預測的。因此，在不滿足馬爾可夫性質的情況下進行多智能體強化學習任務還需要進一步的研究與探索^[57]。

模仿學習（Imitation Learning）又稱為示教學習，主要解決智能體無法從環境中得到明確獎勵的任務。該方法能快速得到環境反饋且其模型收斂迅速，又具備推理能力^[58]，已經廣泛應用于機器視覺^[59]和機器人控制領域中^[60]。模仿學習的主要思想是從示教者提供的范例中學習，示教者又稱為專家，所提供的范例即專家知識，該方法包括行為克隆方法（Behavior Cloning）和逆強化學習方法（Inverse Reinforcement Learning，IRL）。行為克隆方法與監督學習類似，是直接模仿人類行為的方法，此方法無須求解獎勵函數，但當模型訓練收斂后，對于未在訓練集中出現的狀態，行為克隆方法將無法正確采取相應動作，產生復合誤差（Compounding Errors），此時需要采用數據增廣（Data Augmentation）方法緩解誤差隨時間越來越大的問題。另外，行為克隆方法只是對專家知識的簡單復制，并不能實現對數據的特征提取，會增加計算量。逆強化學習方法是應用相對廣泛的方法，其試圖從專家知識學習中得到獎勵函數。顧名思義，逆強化學習方法是強化學習方法的逆過程，具體地，強化學習是已知當前獎勵函數和現有環境使用一定方法求解最優動作選擇策略的方法，而逆強化學習是當前僅有專家知識數據而獎勵函數未知，需要使用一定方法在反推得到獎勵函數后，再使用一般強化學習方法尋找最優策略的方法，其中通常使用基于最大間隔的獎勵函數、基于確定基函數組合的獎勵函數和基于參數化的獎勵函數進行獎勵函數的求解^[61]。對于此類方法，對專家知識所提供數據的處理尤為重要，但是提供大量專家知識會花費大量精力，在一些復雜且困難的大規模任務中，無法提供相關行為數據^[62]。

遷移學習（Transfer Learning）是把已訓練好的模型參數遷移到新的模型中，幫助新模型快速適應的方法^[63]。在強化學習中，無論是基于值函數的策略學習算法還是策略搜索算法，當任務改變時就需要重新對智能體進行訓練，而重新訓練的代價巨大。因此，研究人員在強化學習中引入遷移學習并展開研究，將知識從原任務遷移到目標任務中以改善性能，提出遷移強化學習（Transfer Reinforcement Learning）。Wang 等人總結出遷移強化學習分為兩大類：行為上的遷移和知識上的遷移^[64]。把原始任務中性能良好的策略遷移到全新任務中的做法，在一定程度上使得智能體適應能力變強，還能提高數據利用率，降低模型訓練對數據量的要求。目前，遷移強化學習已廣泛應用在對話系統中。

元學習（Meta Learning）的目標是學會學習，與終身學習（Long Life Learning，LLL）使用同一個模型完成多個任務的思想不同，元學習完成不同任務需要不同的模型。元學習試圖開發出可以根據性能信號做出響應，從而對結構基礎層次以及參數空間進行修改的算法，這些算法在新環境中可以利用之前積累的經驗，但是該方法存在魯棒性不強、難訓練的問題^[65]。元學習可以通過與深度強化學習相結合來解決自身樣本復雜性高的問題，深度元強化學習是近期深度學習技術的一個令人矚目的新興領域，其利用元學習解決了深度學習需要大數據集的問題，以及強化學習收斂慢的問題。深度元強化學習中智能體可以通過充分利用在其他任務中學習積累得到的經驗數據，并在一定采樣額度下適應并完成當前任務。同時，深度元強化學習還可以適用于環境不斷改變的應用場景，具有巨大的應用前景。然而，目前大部分深度元強化學習算法自身訓練需要使用大量數據學習，樣本效率極低。

盡管強化學習延伸出很多分支，并能夠借助其他機器學習方法克服其自身存在的許多問題，但相比其他機器學習方法，強化學習落地困難，真實環境搭建代價高昂，因此其訓練學習過程通常借助模擬器完成。當前，國內外主要模擬器有模擬機器人、生物力學、圖形和動畫等領域的物理引擎 mujoco^[66]；OpenAI 團隊的 gym 環境；DeepMind 團隊的 Spriteworld、OpenSpiel、DeepMind Lab；暴雪公司和 DeepMind 合作出品的 AI 對戰強化學習平臺pysc2；跨平臺的賽車游戲模擬器 TORCS等。

官术网_书友最值得收藏!

統計策略搜索強化學習方法及應用

1.3 強化學習分支