官术网_书友最值得收藏!

PREFACE
前言

強(qiáng)化學(xué)習(xí)(RL)是用于創(chuàng)建自學(xué)習(xí)自主智能體的人工智能方法。本書采用實(shí)用的方法來研究強(qiáng)化學(xué)習(xí),并使用受現(xiàn)實(shí)世界中商業(yè)和行業(yè)問題啟發(fā)的實(shí)際示例來教授先進(jìn)的強(qiáng)化學(xué)習(xí)知識(shí)。

首先,簡要介紹強(qiáng)化學(xué)習(xí)元素,你將掌握馬爾可夫鏈和馬爾可夫決策過程,它們構(gòu)成了對(duì)強(qiáng)化學(xué)習(xí)問題建模的數(shù)學(xué)基礎(chǔ)。然后,你將了解用于解決強(qiáng)化學(xué)習(xí)問題的蒙特卡羅(Monte Carlo)方法和時(shí)間差分(Temporal Difference, TD)學(xué)習(xí)方法。接下來,你將了解深度Q-學(xué)習(xí)(或Q學(xué)習(xí))、策略梯度算法、行動(dòng)器-評(píng)論器(actor-critic)[1]方法、基于模型的方法以及多智能體強(qiáng)化學(xué)習(xí)。隨著學(xué)習(xí)的深入,你將使用現(xiàn)代Python庫深入研究許多具有高級(jí)實(shí)現(xiàn)的新穎算法,還將了解如何實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)來解決諸如自主系統(tǒng)、供應(yīng)鏈管理、游戲、金融、智慧城市和網(wǎng)絡(luò)安全等領(lǐng)域所面臨的現(xiàn)實(shí)挑戰(zhàn)。最后,你將清楚地了解使用哪種方法及何時(shí)使用,如何避免常見的陷阱,以及如何應(yīng)對(duì)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)時(shí)所面臨的挑戰(zhàn)。

讀完本書,你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來解決強(qiáng)化學(xué)習(xí)問題。

目標(biāo)讀者

本書適用于希望在實(shí)際項(xiàng)目中實(shí)現(xiàn)高級(jí)強(qiáng)化學(xué)習(xí)概念的專業(yè)機(jī)器學(xué)習(xí)從業(yè)者和深度學(xué)習(xí)研究人員。本書也適合那些希望通過自學(xué)習(xí)智能體解決復(fù)雜的序貫決策問題的強(qiáng)化學(xué)習(xí)專家。閱讀本書需要讀者具備Python編程、機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方面的知識(shí)和使用經(jīng)驗(yàn)。

本書涵蓋的內(nèi)容

第1章介紹強(qiáng)化學(xué)習(xí),首先著眼于強(qiáng)化學(xué)習(xí)在行業(yè)中的應(yīng)用給出一些激勵(lì)示例和成功案例,然后給出基本定義,讓你對(duì)強(qiáng)化學(xué)習(xí)概念有新的認(rèn)識(shí),最后介紹強(qiáng)化學(xué)習(xí)環(huán)境的軟件和硬件設(shè)置。

第2章介紹一個(gè)相當(dāng)簡單的強(qiáng)化學(xué)習(xí)設(shè)置,即沒有上下文的多臂老虎機(jī)問題,它作為傳統(tǒng)A/B測(cè)試的替代方案,在業(yè)界應(yīng)用廣泛。該章還介紹了一個(gè)非常基本的強(qiáng)化學(xué)習(xí)概念:探索-利用。我們還用4種不同的方法解決了一個(gè)在線廣告案例原型問題。

第3章通過在決策過程中添加上下文并讓深度神經(jīng)網(wǎng)絡(luò)參與決策,更深入地討論多臂老虎機(jī)(Multi-Armed Bandit, MAB)問題,并將來自美國人口普查的真實(shí)數(shù)據(jù)集用于在線廣告問題。最后介紹多臂老虎機(jī)問題在工業(yè)和商業(yè)中的應(yīng)用。

第4章討論建模強(qiáng)化學(xué)習(xí)問題的數(shù)學(xué)理論。首先介紹馬爾可夫鏈,包括狀態(tài)類型、可遍歷性、轉(zhuǎn)移和穩(wěn)態(tài)行為。然后介紹馬爾可夫獎(jiǎng)勵(lì)過程和決策過程,涵蓋回報(bào)、折扣、策略、值函數(shù)和貝爾曼最優(yōu)性等強(qiáng)化學(xué)習(xí)理論中的關(guān)鍵概念。最后討論部分可觀測(cè)的馬爾可夫決策過程。我們使用一個(gè)網(wǎng)格世界的例子貫穿本章來說明這些概念。

第5章介紹動(dòng)態(tài)規(guī)劃方法,這是理解如何解決馬爾可夫決策過程(MDP)的基礎(chǔ)。該章還會(huì)闡釋策略評(píng)估、策略迭代和值迭代等關(guān)鍵概念。我們使用一個(gè)示例貫穿本章來解決庫存補(bǔ)充問題。最后討論在實(shí)踐中使用動(dòng)態(tài)規(guī)劃方法求解強(qiáng)化學(xué)習(xí)存在的問題。

第6章介紹深度強(qiáng)化學(xué)習(xí),并涵蓋端到端規(guī)模化的深度Q-學(xué)習(xí)。我們首先討論為什么需要深度強(qiáng)化學(xué)習(xí)。然后介紹RLlib(一個(gè)流行且可擴(kuò)展的強(qiáng)化學(xué)習(xí)庫)。我們構(gòu)建了從擬合Q-迭代到DQN(Deep Q-Network)再到Rainbow的深度Q-學(xué)習(xí)方法。最后深入探討分布式DQN(Ape-X)等更高級(jí)的主題,并討論要調(diào)整的重要超參數(shù)。對(duì)于經(jīng)典DQN,我們將用TensorFlow實(shí)現(xiàn);對(duì)于Rainbow,我們將使用RLlib實(shí)現(xiàn)。

第7章介紹另一種重要的強(qiáng)化學(xué)習(xí)方法:基于策略的方法。你將首先了解它們有何不同以及為什么需要它們。然后,我們將詳細(xì)介紹幾種最先進(jìn)的策略梯度和信任域方法。最后介紹Actor-Critic算法。我們主要介紹這些算法的RLlib實(shí)現(xiàn),這里并不是給出冗長的實(shí)現(xiàn)細(xì)節(jié),而是關(guān)注如何以及何時(shí)使用它們。

第8章展示基于模型的方法做出了哪些假設(shè),以及它們與其他方法相比有哪些優(yōu)勢(shì)。然后討論著名的AlphaGo Zero背后的模型。最后給出一個(gè)使用基于模型的算法的練習(xí)。該章混合使用了手動(dòng)實(shí)現(xiàn)和RLlib實(shí)現(xiàn)。

第9章介紹一個(gè)建模多智能體強(qiáng)化學(xué)習(xí)問題的框架。

第10章討論將復(fù)雜問題分解成更小部分并使其可解決的機(jī)器教學(xué)方法。這種方法對(duì)于解決許多現(xiàn)實(shí)生活中的問題是必要的,你將學(xué)習(xí)關(guān)于如何設(shè)計(jì)強(qiáng)化學(xué)習(xí)模型的實(shí)用技巧和竅門,并超越算法選擇來解決強(qiáng)化學(xué)習(xí)問題。

第11章介紹為什么部分可觀測(cè)性和sim2real差距是一個(gè)問題,以及如何使用類LSTM(長短期記憶)的模型泛化和域隨機(jī)化來解決這些問題。

第12章介紹允許我們將單個(gè)模型用于多個(gè)任務(wù)的方法。樣本效率是元強(qiáng)化學(xué)習(xí)中的一個(gè)主要問題,該章將向你展示元強(qiáng)化學(xué)習(xí)中一個(gè)非常重要的未來方向。

第13章介紹前沿的強(qiáng)化學(xué)習(xí)研究。到目前為止討論的許多方法都有某些假設(shè)和限制,該章討論的主題就解決這些限制給出了相關(guān)建議。在該章結(jié)束時(shí),你將了解當(dāng)遇到前幾章中介紹的算法的限制時(shí)應(yīng)該使用哪些方法。

第14章介紹強(qiáng)化學(xué)習(xí)在創(chuàng)建現(xiàn)實(shí)自主系統(tǒng)方面的潛力。該章涵蓋自主機(jī)器人和自動(dòng)駕駛汽車的成功案例。

第15章介紹庫存計(jì)劃和車輛路徑優(yōu)化問題的實(shí)踐經(jīng)驗(yàn)。我們將它們建模為強(qiáng)化學(xué)習(xí)問題并給出解決案例。

第16章涵蓋強(qiáng)化學(xué)習(xí)在營銷、廣告、推薦系統(tǒng)和金融中的應(yīng)用。該章讓你廣泛了解如何在業(yè)務(wù)中使用強(qiáng)化學(xué)習(xí),以及機(jī)會(huì)和限制是什么。在該章中,我們還將討論上下文多臂老虎機(jī)問題的示例。

第17章涵蓋智慧城市和網(wǎng)絡(luò)安全領(lǐng)域的問題,例如,交通控制、服務(wù)提供監(jiān)管和入侵檢測(cè)。我們還會(huì)討論如何在這些應(yīng)用程序中使用多智能體方法。

第18章詳細(xì)介紹強(qiáng)化學(xué)習(xí)領(lǐng)域的挑戰(zhàn)是什么以及克服這些挑戰(zhàn)的前沿研究建議和未來方向。該章教你如何評(píng)估強(qiáng)化學(xué)習(xí)方法對(duì)給定問題的可行性。

下載示例代碼文件

本書的代碼包托管在GitHub上,地址為https://github.com/PacktPublishing/Mastering-Reinforcement-Learning-with-Python。如果代碼有更新,我們將在現(xiàn)有的GitHub代碼庫中更新。

下載彩色圖像

我們還提供了一個(gè)PDF文件,其中包含本書中使用的屏幕截圖/圖表的彩色圖像,可以從https://static.packt-cdn.com/downloads/9781838644147_ColorImages.pdf下載。

本書約定

本書中使用了以下約定。

文本中的代碼:表示文本中的代碼字、數(shù)據(jù)庫表名稱、文件夾名稱、文件名、文件擴(kuò)展名、路徑名、虛擬URL、用戶輸入等。示例如下:“安裝NVIDIA Modprobe,例如,對(duì)于Ubuntu,使用sudo apt-get install nvidia-modprobe。”

一段代碼如下所示:

當(dāng)我們希望你注意代碼塊的特定部分時(shí),相關(guān)的行或項(xiàng)目以粗體顯示:

提示或重要說明

以文本框形式出現(xiàn)。


[1]本書譯作“行動(dòng)器-評(píng)論器”,也可譯為“行動(dòng)器-評(píng)判器”“行動(dòng)者-評(píng)論家”等。———編輯注

主站蜘蛛池模板: 万州区| 洪泽县| 青海省| 青州市| 临颍县| 寿宁县| 云林县| 南华县| 无锡市| 凯里市| 青岛市| 治多县| 平阳县| 保山市| 鹿泉市| 曲阜市| 同江市| 清丰县| 临猗县| 荥经县| 秀山| 柘荣县| 东安县| 南华县| 汽车| 尤溪县| 漯河市| 色达县| 平果县| 丹棱县| 香港 | 兰州市| 宜丰县| 岳普湖县| 海城市| 郑州市| 奉化市| 濉溪县| 秦皇岛市| 白朗县| 彭山县|