- 封底 更新時間:2022-05-06 17:09:32
- 參考文獻
- 附錄A 本書使用的數學符號
- 7.6 總結
- 7.5.2 小結
- 7.5.1 算法原理
- 7.5 基于深度強化學習的交易系統
- 7.4.3 小結
- 7.4.2 推薦系統的強化學習算法
- 7.4.1 推薦系統的強化學習環境構建
- 7.4 基于深度強化學習的推薦系統
- 7.3.2 小結
- 7.3.1 算法原理
- 7.3 序列生成模型(SeqGAN)
- 7.2.2 小結
- 7.2.1 算法原理
- 7.2 超分辨率模型(SRGAN)
- 7.1.3 小結
- 7.1.2 算法效果
- 7.1.1 算法原理
- 7.1 神經網絡結構搜索(NAS)
- 第7章 深度強化學習在實踐中的應用
- 6.5 總結
- 6.4.5 算法的搜索執行過程
- 6.4.4 算法的博弈樹表示
- 6.4.3 算法使用的模型
- 6.4.2 算法的基本步驟
- 6.4.1 算法原理
- 6.4 蒙特卡洛樹搜索(MCTS)
- 6.3.3 算法效果
- 6.3.2 算法實現
- 6.3.1 算法原理
- 6.3 雙延遲深度確定性策略梯度算法(TD3)
- 6.2.3 算法效果
- 6.2.2 算法實現
- 6.2.1 算法原理
- 6.2 深度確定性策略梯度算法(DDPG)
- 6.1.3 噪聲網絡的效果
- 6.1.2 噪聲網絡的實現
- 6.1.1 噪聲網絡的原理
- 6.1 噪聲網絡(Noisy Networks)
- 第6章 其他強化學習算法
- 5.6 總結
- 5.5.3 算法的效果(連續動作空間)
- 5.5.2 算法的實現(連續動作空間)
- 5.5.1 算法的基本原理
- 5.5 軟演員-評論家算法(SAC)
- 5.4.3 算法效果
- 5.4.2 算法實現
- 5.4.1 算法原理
- 5.4 克羅內克分解近似置信區間算法(ACKTR)
- 5.3.3 近端策略優化算法的效果(離散動作空間)
- 5.3.2 近端策略優化算法的實現
- 5.3.1 算法原理
- 5.3 置信區間策略優化算法
- 5.2.9 異步優勢演員-評論家算法的效果
- 5.2.8 異步優勢演員-評論家算法的實現
- 5.2.7 運行效果(連續動作空間)
- 5.2.6 算法實現(連續動作空間)
- 5.2.5 優勢演員-評論家算法運行效果(離散動作空間)
- 5.2.4 優勢演員-評論家算法的實現(離散動作空間)
- 5.2.3 熵正則化方法
- 5.2.2 泛化優勢估計(Generalized Advantage Estimation)
- 5.2.1 算法原理
- 5.2 優勢演員-評論家算法(A2C和A3C)
- 5.1.6 小結
- 5.1.5 基于連續動作空間算法的運行結果
- 5.1.4 基于連續動作空間算法的實現
- 5.1.3 基于離散動作空間算法的運行結果
- 5.1.2 基于離散動作空間算法的模型實現
- 5.1.1 算法原理
- 5.1 經典策略梯度算法(VPG)
- 第5章 策略梯度強化學習算法
- 4.7 總結
- 4.6.3 彩虹算法的模型效果
- 4.6.2 彩虹算法的部分實現
- 4.6.1 彩虹算法對DQN的優化
- 4.6 彩虹算法(Rainbow)
- 4.5.7 分類DQN模型小結
- 4.5.6 分位數回歸DQN模型算法效果
- 4.5.5 分位數回歸DQN模型算法實現
- 4.5.4 分位數回歸DQN模型
- 4.5.3 分類DQN模型算法效果
- 4.5.2 分類DQN模型算法實現
- 4.5.1 分類DQN模型
- 4.5 分布形式的DQN算法(Distributional DQN)
- 4.4.3 算法效果
- 4.4.2 算法實現
- 4.4.1 算法原理
- 4.4 競爭DQN算法(Duel DQN)
- 4.3.3 算法效果
- 4.3.2 算法實現
- 4.3.1 算法原理
- 4.3 優先經驗回放(Prioritized Experience Replay)
- 4.2.3 算法效果
- 4.2.2 算法實現
- 4.2.1 算法原理
- 4.2 雙網絡Q學習算法(Double Q-Learning)
- 4.1.5 結合DQN算法的采樣和模型的訓練
- 4.1.4 DQN模型的訓練
- 4.1.3 DQN模型的輸入
- 4.1.2 DQN模型結構
- 4.1.1 DQN算法理論背景
- 4.1 經典深度Q網絡算法(DQN)
- 第4章 深度Q函數強化學習算法
- 3.6 總結
- 3.5.2 ReAgent框架
- 3.5.1 Dopamine框架
- 3.5 深度強化學習框架簡介
- 3.4.2 OpenSpiel強化學習環境
- 3.4.1 PySC2 強化學習環境
- 3.4 其他強化學習環境
- 3.3 DeepMind Lab強化學習環境
- 3.2.5 自定義Gym強化學習環境
- 3.2.4 Gym的MuJoCo環境
- 3.2.3 Gym的Atari強化學習環境
- 3.2.2 Gym的經典控制環境
- 3.2.1 Gym環境的安裝和基本接口
- 3.2 OpenAI Gym環境
- 3.1.3 井字棋(Tic-Tac-Toe)
- 3.1.2 多臂賭博機(Multi-armed Bandit)
- 3.1.1 網格世界(Grid World)
- 3.1 簡單的強化學習環境
- 第3章 強化學習環境
- 2.5 總結
- 2.4 貝爾曼方程及其應用
- 2.3.2 價值迭代
- 2.3.1 策略迭代
- 2.3 策略迭代和價值迭代
- 2.2 強化學習的探索和利用
- 2.1.3 最優策略的迭代算法
- 2.1.2 貪心策略和最優策略
- 2.1.1 馬爾可夫決策過程和回溯圖
- 2.1 強化學習基本要素
- 第2章 深入了解強化學習
- 1.7 總結
- 1.6 蒙特卡洛梯度估計
- 1.5 強化學習的優缺點
- 1.4 深度強化學習基本概念
- 1.3.3 在線(On-policy)算法和離線(Off-policy)算法
- 1.3.2 基于策略的(Policy-Based)和基于價值的(Value-Based)
- 1.3.1 基于模型的(Model-Based)和無模型的(Model-Free)
- 1.3 強化學習算法的分類
- 1.2.3 動作價值函數和狀態-動作價值函數
- 1.2.2 馬爾可夫決策過程
- 1.2.1 智能體相關概念
- 1.2 強化學習基本概念
- 1.1.2 強化學習和人工智能的關系
- 1.1.1 人工智能的歷史
- 1.1 強化學習的歷史
- 第1章 強化學習簡介
- 序
- 內容簡介
- 作者介紹
- 版權信息
- 封面
- 封面
- 版權信息
- 作者介紹
- 內容簡介
- 序
- 第1章 強化學習簡介
- 1.1 強化學習的歷史
- 1.1.1 人工智能的歷史
- 1.1.2 強化學習和人工智能的關系
- 1.2 強化學習基本概念
- 1.2.1 智能體相關概念
- 1.2.2 馬爾可夫決策過程
- 1.2.3 動作價值函數和狀態-動作價值函數
- 1.3 強化學習算法的分類
- 1.3.1 基于模型的(Model-Based)和無模型的(Model-Free)
- 1.3.2 基于策略的(Policy-Based)和基于價值的(Value-Based)
- 1.3.3 在線(On-policy)算法和離線(Off-policy)算法
- 1.4 深度強化學習基本概念
- 1.5 強化學習的優缺點
- 1.6 蒙特卡洛梯度估計
- 1.7 總結
- 第2章 深入了解強化學習
- 2.1 強化學習基本要素
- 2.1.1 馬爾可夫決策過程和回溯圖
- 2.1.2 貪心策略和最優策略
- 2.1.3 最優策略的迭代算法
- 2.2 強化學習的探索和利用
- 2.3 策略迭代和價值迭代
- 2.3.1 策略迭代
- 2.3.2 價值迭代
- 2.4 貝爾曼方程及其應用
- 2.5 總結
- 第3章 強化學習環境
- 3.1 簡單的強化學習環境
- 3.1.1 網格世界(Grid World)
- 3.1.2 多臂賭博機(Multi-armed Bandit)
- 3.1.3 井字棋(Tic-Tac-Toe)
- 3.2 OpenAI Gym環境
- 3.2.1 Gym環境的安裝和基本接口
- 3.2.2 Gym的經典控制環境
- 3.2.3 Gym的Atari強化學習環境
- 3.2.4 Gym的MuJoCo環境
- 3.2.5 自定義Gym強化學習環境
- 3.3 DeepMind Lab強化學習環境
- 3.4 其他強化學習環境
- 3.4.1 PySC2 強化學習環境
- 3.4.2 OpenSpiel強化學習環境
- 3.5 深度強化學習框架簡介
- 3.5.1 Dopamine框架
- 3.5.2 ReAgent框架
- 3.6 總結
- 第4章 深度Q函數強化學習算法
- 4.1 經典深度Q網絡算法(DQN)
- 4.1.1 DQN算法理論背景
- 4.1.2 DQN模型結構
- 4.1.3 DQN模型的輸入
- 4.1.4 DQN模型的訓練
- 4.1.5 結合DQN算法的采樣和模型的訓練
- 4.2 雙網絡Q學習算法(Double Q-Learning)
- 4.2.1 算法原理
- 4.2.2 算法實現
- 4.2.3 算法效果
- 4.3 優先經驗回放(Prioritized Experience Replay)
- 4.3.1 算法原理
- 4.3.2 算法實現
- 4.3.3 算法效果
- 4.4 競爭DQN算法(Duel DQN)
- 4.4.1 算法原理
- 4.4.2 算法實現
- 4.4.3 算法效果
- 4.5 分布形式的DQN算法(Distributional DQN)
- 4.5.1 分類DQN模型
- 4.5.2 分類DQN模型算法實現
- 4.5.3 分類DQN模型算法效果
- 4.5.4 分位數回歸DQN模型
- 4.5.5 分位數回歸DQN模型算法實現
- 4.5.6 分位數回歸DQN模型算法效果
- 4.5.7 分類DQN模型小結
- 4.6 彩虹算法(Rainbow)
- 4.6.1 彩虹算法對DQN的優化
- 4.6.2 彩虹算法的部分實現
- 4.6.3 彩虹算法的模型效果
- 4.7 總結
- 第5章 策略梯度強化學習算法
- 5.1 經典策略梯度算法(VPG)
- 5.1.1 算法原理
- 5.1.2 基于離散動作空間算法的模型實現
- 5.1.3 基于離散動作空間算法的運行結果
- 5.1.4 基于連續動作空間算法的實現
- 5.1.5 基于連續動作空間算法的運行結果
- 5.1.6 小結
- 5.2 優勢演員-評論家算法(A2C和A3C)
- 5.2.1 算法原理
- 5.2.2 泛化優勢估計(Generalized Advantage Estimation)
- 5.2.3 熵正則化方法
- 5.2.4 優勢演員-評論家算法的實現(離散動作空間)
- 5.2.5 優勢演員-評論家算法運行效果(離散動作空間)
- 5.2.6 算法實現(連續動作空間)
- 5.2.7 運行效果(連續動作空間)
- 5.2.8 異步優勢演員-評論家算法的實現
- 5.2.9 異步優勢演員-評論家算法的效果
- 5.3 置信區間策略優化算法
- 5.3.1 算法原理
- 5.3.2 近端策略優化算法的實現
- 5.3.3 近端策略優化算法的效果(離散動作空間)
- 5.4 克羅內克分解近似置信區間算法(ACKTR)
- 5.4.1 算法原理
- 5.4.2 算法實現
- 5.4.3 算法效果
- 5.5 軟演員-評論家算法(SAC)
- 5.5.1 算法的基本原理
- 5.5.2 算法的實現(連續動作空間)
- 5.5.3 算法的效果(連續動作空間)
- 5.6 總結
- 第6章 其他強化學習算法
- 6.1 噪聲網絡(Noisy Networks)
- 6.1.1 噪聲網絡的原理
- 6.1.2 噪聲網絡的實現
- 6.1.3 噪聲網絡的效果
- 6.2 深度確定性策略梯度算法(DDPG)
- 6.2.1 算法原理
- 6.2.2 算法實現
- 6.2.3 算法效果
- 6.3 雙延遲深度確定性策略梯度算法(TD3)
- 6.3.1 算法原理
- 6.3.2 算法實現
- 6.3.3 算法效果
- 6.4 蒙特卡洛樹搜索(MCTS)
- 6.4.1 算法原理
- 6.4.2 算法的基本步驟
- 6.4.3 算法使用的模型
- 6.4.4 算法的博弈樹表示
- 6.4.5 算法的搜索執行過程
- 6.5 總結
- 第7章 深度強化學習在實踐中的應用
- 7.1 神經網絡結構搜索(NAS)
- 7.1.1 算法原理
- 7.1.2 算法效果
- 7.1.3 小結
- 7.2 超分辨率模型(SRGAN)
- 7.2.1 算法原理
- 7.2.2 小結
- 7.3 序列生成模型(SeqGAN)
- 7.3.1 算法原理
- 7.3.2 小結
- 7.4 基于深度強化學習的推薦系統
- 7.4.1 推薦系統的強化學習環境構建
- 7.4.2 推薦系統的強化學習算法
- 7.4.3 小結
- 7.5 基于深度強化學習的交易系統
- 7.5.1 算法原理
- 7.5.2 小結
- 7.6 總結
- 附錄A 本書使用的數學符號
- 參考文獻
- 封底 更新時間:2022-05-06 17:09:32