強化學習:原理與Python實戰(zhàn)
本書從原理和實戰(zhàn)兩個方面介紹了強化學習。原理方面,深入介紹了主流強化學習理論和算法,覆蓋資格跡等經(jīng)典算法和MuZero等深度強化學習算法;實戰(zhàn)方面,每章都配套了編程案例,以方便讀者學習。全書從邏輯上分為三部分。第1章:從零開始介紹強化學習的背景知識,介紹環(huán)境庫Gym的使用。第2~15章:基于折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主干理論和常見算法。采用數(shù)學語言推導強化學習的基礎(chǔ)理論,進而在理論的基礎(chǔ)上講解算法,并為算法提供配套代碼實現(xiàn)?;A(chǔ)理論的講解突出主干部分,算法講解全面覆蓋主流的強化學習算法,包括經(jīng)典的非深度強化學習算法和近年流行的強化學習算法。Python實現(xiàn)和算法講解一一對應(yīng),還給出了深度強化學習算法的TensorFlow和PyTorch對照實現(xiàn)。第16章:介紹其他強化學習模型,包括平均獎勵模型、連續(xù)時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好了解強化學習研究的全貌。
·17.2萬字