強化學習:原理與Python實戰
本書從原理和實戰兩個方面介紹了強化學習。原理方面,深入介紹了主流強化學習理論和算法,覆蓋資格跡等經典算法和MuZero等深度強化學習算法;實戰方面,每章都配套了編程案例,以方便讀者學習。全書從邏輯上分為三部分。第1章:從零開始介紹強化學習的背景知識,介紹環境庫Gym的使用。第2~15章:基于折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主干理論和常見算法。采用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解算法,并為算法提供配套代碼實現。基礎理論的講解突出主干部分,算法講解全面覆蓋主流的強化學習算法,包括經典的非深度強化學習算法和近年流行的強化學習算法。Python實現和算法講解一一對應,還給出了深度強化學習算法的TensorFlow和PyTorch對照實現。第16章:介紹其他強化學習模型,包括平均獎勵模型、連續時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好了解強化學習研究的全貌。
·17.2萬字