官术网_书友最值得收藏!

QQ閱讀小說網(wǎng)

首頁分類排行榜書架

作家專區(qū) 手機版

登錄???|???注冊

肖智清

作品粉絲 3 人

全部作品

強化學習：原理與Python實戰(zhàn)

強化學習：原理與Python實戰(zhàn)

本書從原理和實戰(zhàn)兩個方面介紹了強化學習。原理方面，深入介紹了主流強化學習理論和算法，覆蓋資格跡等經(jīng)典算法和MuZero等深度強化學習算法；實戰(zhàn)方面，每章都配套了編程案例，以方便讀者學習。全書從邏輯上分為三部分。第1章：從零開始介紹強化學習的背景知識，介紹環(huán)境庫Gym的使用。第2～15章：基于折扣獎勵離散時間Markov決策過程模型，介紹強化學習的主干理論和常見算法。采用數(shù)學語言推導強化學習的基礎(chǔ)理論，進而在理論的基礎(chǔ)上講解算法，并為算法提供配套代碼實現(xiàn)?；A(chǔ)理論的講解突出主干部分，算法講解全面覆蓋主流的強化學習算法，包括經(jīng)典的非深度強化學習算法和近年流行的強化學習算法。Python實現(xiàn)和算法講解一一對應(yīng)，還給出了深度強化學習算法的TensorFlow和PyTorch對照實現(xiàn)。第16章：介紹其他強化學習模型，包括平均獎勵模型、連續(xù)時間模型、非齊次模型、半Markov模型、部分可觀測模型等，以便更好了解強化學習研究的全貌。

強化學習：原理與Python實現(xiàn)

強化學習：原理與Python實現(xiàn)

全書分為三個部分。第一部分了解強化學習應(yīng)用，了解強化學習基本知識，搭建強化學習測試環(huán)境。該部分包括：強化學習的概況、強化學習簡單示例、強化學習算法的常見思想、強化學習的應(yīng)用、強化學習測試環(huán)境的搭建。第二部分介紹強化學習理論與深度強化學習算法。強化學習理論部分：Markov決策過程的數(shù)學描述、MonteCarlo方法和時序差分方法的數(shù)學理論；深度強化學習算法部分：詳細剖析全部具有重要影響力的深度強化學習算法，結(jié)合TensorFlow實現(xiàn)源碼。第三部分介紹強化學習綜合應(yīng)用案例。

關(guān)于騰訊 About Tencent 服務(wù)協(xié)議開放平臺廣告服務(wù) 騰訊招聘騰訊公益客服中心網(wǎng)站導航違規(guī)舉報

達人推廣合作：https://kol.yuewen.com

網(wǎng)站合作：傅女士 fuli.a@yuewen.com

雙新用戶（設(shè)備和賬號都新為雙新用戶）下載并登錄后1-20天最多可免費領(lǐng)取20本會員/單訂書且可免費讀10天

Copyright (C) 2025 m.cqxianglaokan.com All Rights Reserved 上海閱文信息技術(shù)有限公司版權(quán)所有
粵公網(wǎng)安備 44030002000001號 ???? 增值電信業(yè)務(wù)經(jīng)營許可證：粵B2-20090059???? 互聯(lián)網(wǎng)ICP備案號：粵B2-20090059-5 ???? 舉報電話：010-59357051 營業(yè)執(zhí)照
網(wǎng)絡(luò)文化經(jīng)營許可證：滬網(wǎng)文 (2023) 3296-228號網(wǎng)絡(luò)出版服務(wù)許可證：（署）網(wǎng)出證（滬）字第055號????互聯(lián)網(wǎng)宗教信息服務(wù)許可證：滬（2023）0000015

QQ閱讀手機版

主站蜘蛛池模板：无为县| 镇雄县| 平潭县| 临清市| 叶城县| 秀山| 黔东| 文成县| 丽水市| 蒙城县| 界首市| 株洲市| 璧山县| 汕尾市| 南投市| 育儿| 格尔木市| 奇台县| 吐鲁番市| 白城市| 勃利县| 门头沟区| 晋州市| 环江| 越西县| 鹤山市| 周宁县| 武川县| 临颍县| 天津市| 万年县| 岱山县| 英山县| 鄂尔多斯市| 民乐县| 南昌市| 米泉市| 临猗县| 报价| 交城县| 新宁县|

<sup id="f33p9"></sup>