舉報(bào)

會員
決策算法
最新章節(jié):
封底
本書源于斯坦福大學(xué)的相關(guān)課程,主要介紹不確定狀態(tài)下的決策算法,涵蓋基本的數(shù)學(xué)問題和求解算法。本書共分為五個(gè)部分:首先解決在單個(gè)時(shí)間點(diǎn)上簡單決策的不確定性和目標(biāo)的推理問題;然后介紹隨機(jī)環(huán)境中的序列決策問題;接著討論模型不確定性,包括基于模型的方法和無模型的方法;之后討論狀態(tài)不確定性,包括精確信念狀態(tài)規(guī)劃、離線信念狀態(tài)規(guī)劃、在線信念狀態(tài)規(guī)劃等;最后討論多智能體系統(tǒng),涉及多智能體推理和協(xié)作智能體等。本書主要關(guān)注規(guī)劃和強(qiáng)化學(xué)習(xí),其中一些技術(shù)涉及監(jiān)督學(xué)習(xí)和優(yōu)化。書中的算法是用Julia編程語言實(shí)現(xiàn)的,并配有大量圖表、示例和練習(xí)題。本書要求讀者具備扎實(shí)的數(shù)學(xué)基礎(chǔ),適合計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、電氣工程、航空航天等領(lǐng)域的讀者閱讀。
最新章節(jié)
書友吧品牌:機(jī)械工業(yè)出版社
譯者:余青松 江紅 余靖
上架時(shí)間:2024-10-29 18:25:54
出版社:機(jī)械工業(yè)出版社
本書數(shù)字版權(quán)由機(jī)械工業(yè)出版社提供,并由其授權(quán)上海閱文信息技術(shù)有限公司制作發(fā)行
- 封底 更新時(shí)間:2024-10-29 18:35:53
- 譯者簡介
- 推薦閱讀
- 參考文獻(xiàn)
- G.5 實(shí)用函數(shù)
- G.4.3 JuMP.jl
- G.4.2 Distributions.jl
- G.4.1 Graphs.jl
- G.4 包
- G.3.3 迭代器
- G.3.2 循環(huán)
- G.3.1 條件求值
- G.3 控制流程
- G.2.7 解包
- G.2.6 調(diào)度分派
- G.2.5 關(guān)鍵字參數(shù)
- G.2.4 可選參數(shù)
- G.2.3 可調(diào)用對象
- G.2.2 匿名函數(shù)
- G.2.1 命名函數(shù)
- G.2 函數(shù)
- G.1.12 參數(shù)化類型
- G.1.11 抽象類型
- G.1.10 組合類型
- G.1.9 字典
- G.1.8 命名元組
- G.1.7 元組
- G.1.6 矩陣
- G.1.5 向量
- G.1.4 符號
- G.1.3 字符串
- G.1.2 數(shù)值類型
- G.1.1 布爾類型
- G.1 數(shù)據(jù)類型
- 附錄G Julia
- F.15 協(xié)作式“捕食者-獵物”六邊形世界問題
- F.14 包含多位護(hù)理者的哭鬧的嬰兒問題
- F.13 “捕食者-獵物”六邊形世界問題
- F.12 旅行者困境問題
- F.11 “石頭、剪刀、布”問題
- F.10 囚徒的困境
- F.9 接球問題
- F.8 機(jī)器更換問題
- F.7 哭鬧的嬰兒問題
- F.6 飛機(jī)防撞問題
- F.5 簡單調(diào)節(jié)器問題
- F.4 山地車問題
- F.3 “推車-豎桿”問題
- F.2 2048問題
- F.1 六邊形世界問題
- 附錄F 決策問題
- E.6 啟發(fā)式搜索
- E.5 動態(tài)規(guī)劃
- E.4 分支定界法
- E.3 正向搜索
- E.2 搜索圖
- E.1 搜索問題
- 附錄E 搜索算法
- D.7 對抗式神經(jīng)網(wǎng)絡(luò)
- D.6 自動編碼器神經(jīng)網(wǎng)絡(luò)
- D.5 循環(huán)神經(jīng)網(wǎng)絡(luò)
- D.4 卷積神經(jīng)網(wǎng)絡(luò)
- D.3 參數(shù)正則化
- D.2 前饋網(wǎng)絡(luò)
- D.1 神經(jīng)網(wǎng)絡(luò)
- 附錄D 神經(jīng)網(wǎng)絡(luò)表示
- C.4 可判定性
- C.3 空間復(fù)雜度的級別
- C.2 時(shí)間復(fù)雜度的級別
- C.1 漸近表示法
- 附錄C 計(jì)算復(fù)雜度
- 附錄B 概率分布
- A.16 圖
- A.15 收縮映射
- A.14 重要性采樣技術(shù)
- A.13 蒙特卡羅估計(jì)方法
- A.12 泰勒展開式
- A.11 梯度上升
- A.10 相對熵
- A.9 交叉熵
- A.8 熵
- A.7 信息量
- A.6 凸性
- A.5 正定性
- A.4 賦范向量空間
- A.3 度量空間
- A.2 概率空間
- A.1 測度空間
- 附錄A 數(shù)學(xué)概念
- 附錄
- 27.8 練習(xí)題
- 27.7 本章小結(jié)
- 27.6 非線性規(guī)劃
- 27.5 啟發(fā)式搜索
- 27.4 迭代式最優(yōu)響應(yīng)
- 27.3 動態(tài)規(guī)劃
- 27.2 Dec-POMDP的子類別
- 27.1 分散的部分可觀測馬爾可夫決策過程
- 第27章 協(xié)作智能體
- 26.6 練習(xí)題
- 26.5 本章小結(jié)
- 26.4 動態(tài)規(guī)劃
- 26.3 納什均衡
- 26.2.2 評估隨機(jī)控制器
- 26.2.1 評估條件規(guī)劃
- 26.2 策略評估
- 26.1 部分可觀測馬爾可夫博弈
- 第26章 狀態(tài)不確定性
- 25.8 練習(xí)題
- 25.7 本章小結(jié)
- 25.6 納什Q-學(xué)習(xí)
- 25.5 梯度上升
- 25.4 虛構(gòu)博弈
- 25.3 納什均衡
- 25.2.2 Softmax響應(yīng)
- 25.2.1 最優(yōu)響應(yīng)
- 25.2 響應(yīng)模型
- 25.1 馬爾可夫博弈
- 第25章 序列問題
- 24.11 練習(xí)題
- 24.10 本章小結(jié)
- 24.9 梯度上升
- 24.8 虛構(gòu)博弈
- 24.7 層次化Softmax
- 24.6 迭代式最優(yōu)響應(yīng)
- 24.5 相關(guān)均衡
- 24.4 納什均衡
- 24.3 主導(dǎo)策略均衡
- 24.2.2 Softmax響應(yīng)
- 24.2.1 最優(yōu)響應(yīng)
- 24.2 響應(yīng)模型
- 24.1 簡單博弈
- 第24章 多智能體推理
- 第五部分 多智能體系統(tǒng)
- 23.6 練習(xí)題
- 23.5 本章小結(jié)
- 23.4 梯度上升
- 23.3 非線性規(guī)劃
- 23.2 策略迭代
- 23.1 控制器
- 第23章 控制器抽象
- 22.9 練習(xí)題
- 22.8 本章小結(jié)
- 22.7 間隙啟發(fā)式搜索
- 22.6 確定性稀疏樹搜索
- 22.5 蒙特卡羅樹搜索
- 22.4 稀疏抽樣
- 22.3 分支定界法
- 22.2 正向搜索
- 22.1 具有預(yù)演的前瞻策略
- 第22章 在線信念狀態(tài)規(guī)劃
- 21.11 練習(xí)題
- 21.10 本章小結(jié)
- 21.9 三角化的值函數(shù)
- 21.8 鋸齒啟發(fā)式搜索
- 21.7 點(diǎn)選擇
- 21.6 鋸齒上界
- 21.5 基于隨機(jī)點(diǎn)的值迭代
- 21.4 基于點(diǎn)的值迭代
- 21.3 快速下界
- 21.2 快速通知界限
- 21.1 完全可觀測值的近似
- 第21章 離線信念狀態(tài)規(guī)劃
- 20.8 練習(xí)題
- 20.7 本章小結(jié)
- 20.6 線性策略
- 20.5 值迭代
- 20.4 剪枝
- 20.3 阿爾法向量
- 20.2 條件規(guī)劃
- 20.1 信念-狀態(tài)馬爾可夫決策過程
- 第20章 精確信念狀態(tài)規(guī)劃
- 19.9 練習(xí)題
- 19.8 本章小結(jié)
- 19.7 粒子注入
- 19.6 粒子濾波器
- 19.5 無跡卡爾曼濾波器
- 19.4 擴(kuò)展卡爾曼濾波器
- 19.3 卡爾曼濾波器
- 19.2 離散狀態(tài)濾波器
- 19.1 信念初始化
- 第19章 信念
- 第四部分 狀態(tài)不確定性
- 18.8 練習(xí)題
- 18.7 本章小結(jié)
- 18.6 生成式對抗性模仿學(xué)習(xí)
- 18.5 最大熵逆向強(qiáng)化學(xué)習(xí)
- 18.4 最大邊際逆向強(qiáng)化學(xué)習(xí)
- 18.3 隨機(jī)混合迭代學(xué)習(xí)
- 18.2 數(shù)據(jù)集聚合
- 18.1 行為克隆
- 第18章 模仿學(xué)習(xí)
- 17.9 練習(xí)題
- 17.8 本章小結(jié)
- 17.7 經(jīng)驗(yàn)回放
- 17.6 行為值函數(shù)近似
- 17.5 獎勵塑形
- 17.4 資格跡
- 17.3 Sarsa
- 17.2 Q-學(xué)習(xí)
- 17.1 均值的增量估計(jì)
- 第17章 無模型的方法
- 16.8 練習(xí)題
- 16.7 本章小結(jié)
- 16.6 后驗(yàn)抽樣
- 16.5 貝葉斯自適應(yīng)馬爾可夫決策過程
- 16.4 貝葉斯方法
- 16.3 探索策略
- 16.2.3 優(yōu)先更新
- 16.2.2 隨機(jī)更新
- 16.2.1 完整更新
- 16.2 更新方案
- 16.1 最大似然模型
- 第16章 基于模型的方法
- 15.8 練習(xí)題
- 15.7 本章小結(jié)
- 15.6 使用多個(gè)狀態(tài)進(jìn)行探索
- 15.5 最佳探索策略
- 15.4 有向探索策略
- 15.3 無向探索策略
- 15.2 貝葉斯模型估計(jì)
- 15.1 賭博機(jī)問題
- 第15章 探索和利用
- 第三部分 模型不確定性
- 14.7 練習(xí)題
- 14.6 本章小結(jié)
- 14.5 對抗性分析
- 14.4 權(quán)衡分析
- 14.3 魯棒性分析
- 14.2 罕見事件模擬
- 14.1 性能指標(biāo)評估
- 第14章 策略驗(yàn)證
- 13.6 練習(xí)題
- 13.5 本章小結(jié)
- 13.4 蒙特卡羅樹搜索的“行為者-評論家”
- 13.3 確定性策略梯度
- 13.2 廣義優(yōu)勢估計(jì)
- 13.1 “行為者-評論家”
- 第13章 “行為者-評論家”方法
- 12.7 練習(xí)題
- 12.6 本章小結(jié)
- 12.5 剪裁代理目標(biāo)
- 12.4 信任區(qū)域更新
- 12.3 自然梯度更新
- 12.2 帶約束條件的梯度更新
- 12.1 梯度上升更新
- 第12章 策略梯度的優(yōu)化
- 11.7 練習(xí)題
- 11.6 本章小結(jié)
- 11.5 基線扣除法
- 11.4 “之后的獎勵”方法
- 11.3 似然比
- 11.2 回歸梯度
- 11.1 有限差分
- 第11章 策略梯度值的估算
- 10.8 練習(xí)題
- 10.7 本章小結(jié)
- 10.6 各向同性進(jìn)化策略
- 10.5 進(jìn)化策略
- 10.4 交叉熵方法
- 10.3 遺傳算法
- 10.2 局部搜索
- 10.1 近似策略評估
- 第10章 策略搜索
- 9.11 練習(xí)題
- 9.10 本章小結(jié)
- 9.9.3 多重預(yù)測模型預(yù)測控制
- 9.9.2 魯棒模型預(yù)測控制
- 9.9.1 確定性模型預(yù)測控制
- 9.9 開環(huán)規(guī)劃
- 9.8 標(biāo)記啟發(fā)式搜索
- 9.7 啟發(fā)式搜索
- 9.6 蒙特卡羅樹搜索
- 9.5 稀疏抽樣
- 9.4 分支定界法
- 9.3 正向搜索
- 9.2 基于預(yù)演的前瞻算法
- 9.1 滾動時(shí)域規(guī)劃
- 第9章 在線規(guī)劃
- 8.9 練習(xí)題
- 8.8 本章小結(jié)
- 8.7 神經(jīng)網(wǎng)絡(luò)回歸
- 8.6 線性回歸
- 8.5 單純形插值
- 8.4 線性插值
- 8.3 核平滑
- 8.2 最近鄰
- 8.1 參數(shù)化表示
- 第8章 近似值函數(shù)
- 7.10 練習(xí)題
- 7.9 本章小結(jié)
- 7.8 具有二次型獎勵的線性系統(tǒng)
- 7.7 線性規(guī)劃方程
- 7.6 異步值迭代
- 7.5 值迭代
- 7.4 策略迭代
- 7.3 值函數(shù)策略
- 7.2 策略評估
- 7.1 馬爾可夫決策過程
- 第7章 精確求解方法
- 第二部分 序列問題
- 6.9 練習(xí)題
- 6.8 本章小結(jié)
- 6.7 非理性
- 6.6 信息價(jià)值
- 6.5 決策網(wǎng)絡(luò)
- 6.4 最大期望效用原則
- 6.3 效用誘導(dǎo)
- 6.2 效用函數(shù)
- 6.1 理性偏好上的約束
- 第6章 簡單決策
- 5.6 練習(xí)題
- 5.5 本章小結(jié)
- 5.4 部分有向圖搜索
- 5.3 馬爾可夫等價(jià)類
- 5.2 有向圖搜索
- 5.1 貝葉斯網(wǎng)絡(luò)評分
- 第5章 結(jié)構(gòu)學(xué)習(xí)
- 4.6 練習(xí)題
- 4.5 本章小結(jié)
- 4.4.2 期望最大化
- 4.4.1 數(shù)據(jù)插值
- 4.4 缺失數(shù)據(jù)的學(xué)習(xí)
- 4.3 非參數(shù)學(xué)習(xí)
- 4.2.3 貝葉斯網(wǎng)絡(luò)的貝葉斯學(xué)習(xí)
- 4.2.2 類別分布的貝葉斯學(xué)習(xí)
- 4.2.1 二元分布的貝葉斯學(xué)習(xí)
- 4.2 貝葉斯參數(shù)學(xué)習(xí)
- 4.1.3 貝葉斯網(wǎng)絡(luò)的最大似然估計(jì)
- 4.1.2 高斯分布的最大似然估計(jì)
- 4.1.1 類別分布的最大似然估計(jì)
- 4.1 最大似然參數(shù)學(xué)習(xí)
- 第4章 參數(shù)學(xué)習(xí)
- 3.11 練習(xí)題
- 3.10 本章小結(jié)
- 3.9 高斯模型中的推理
- 3.8 吉布斯抽樣
- 3.7 似然加權(quán)抽樣
- 3.6 直接抽樣
- 3.5 計(jì)算復(fù)雜度
- 3.4 信念傳播
- 3.3 “和-積”變量消除
- 3.2 樸素貝葉斯模型中的推理
- 3.1 貝葉斯網(wǎng)絡(luò)中的推理
- 第3章 推理
- 2.8 練習(xí)題
- 2.7 本章小結(jié)
- 2.6 條件獨(dú)立性
- 2.5 貝葉斯網(wǎng)絡(luò)
- 2.4.6 確定性變量
- 2.4.5 sigmoid模型
- 2.4.4 條件線性高斯模型
- 2.4.3 線性高斯模型
- 2.4.2 條件高斯模型
- 2.4.1 離散條件模型
- 2.4 條件分布
- 2.3.2 連續(xù)聯(lián)合分配
- 2.3.1 離散聯(lián)合分布
- 2.3 聯(lián)合分布
- 2.2.2 連續(xù)概率分布
- 2.2.1 離散概率分布
- 2.2 概率分布
- 2.1 信念度和概率
- 第2章 表示
- 第一部分 概率推理
- 1.6.5 多智能體系統(tǒng)
- 1.6.4 狀態(tài)不確定性
- 1.6.3 模型不確定性
- 1.6.2 序列問題
- 1.6.1 概率推理
- 1.6 本書組織結(jié)構(gòu)
- 1.5 社會影響
- 1.4.7 運(yùn)籌學(xué)
- 1.4.6 數(shù)學(xué)
- 1.4.5 工程
- 1.4.4 計(jì)算機(jī)科學(xué)
- 1.4.3 神經(jīng)科學(xué)
- 1.4.2 心理學(xué)
- 1.4.1 經(jīng)濟(jì)學(xué)
- 1.4 自動化決策過程的歷史
- 1.3.5 強(qiáng)化學(xué)習(xí)
- 1.3.4 規(guī)劃
- 1.3.3 優(yōu)化
- 1.3.2 監(jiān)督式學(xué)習(xí)
- 1.3.1 顯式編程
- 1.3 方法
- 1.2.6 火星科學(xué)探測
- 1.2.5 分布式森林火災(zāi)監(jiān)控系統(tǒng)
- 1.2.4 金融消費(fèi)與投資組合配置
- 1.2.3 乳腺癌篩查
- 1.2.2 自動駕駛控制系統(tǒng)
- 1.2.1 飛機(jī)防撞控制系統(tǒng)
- 1.2 應(yīng)用
- 1.1 決策
- 第1章 導(dǎo)論
- 致謝
- 前言
- 譯者序
- 作者簡介
- 版權(quán)信息
- 封面
- 封面
- 版權(quán)信息
- 作者簡介
- 譯者序
- 前言
- 致謝
- 第1章 導(dǎo)論
- 1.1 決策
- 1.2 應(yīng)用
- 1.2.1 飛機(jī)防撞控制系統(tǒng)
- 1.2.2 自動駕駛控制系統(tǒng)
- 1.2.3 乳腺癌篩查
- 1.2.4 金融消費(fèi)與投資組合配置
- 1.2.5 分布式森林火災(zāi)監(jiān)控系統(tǒng)
- 1.2.6 火星科學(xué)探測
- 1.3 方法
- 1.3.1 顯式編程
- 1.3.2 監(jiān)督式學(xué)習(xí)
- 1.3.3 優(yōu)化
- 1.3.4 規(guī)劃
- 1.3.5 強(qiáng)化學(xué)習(xí)
- 1.4 自動化決策過程的歷史
- 1.4.1 經(jīng)濟(jì)學(xué)
- 1.4.2 心理學(xué)
- 1.4.3 神經(jīng)科學(xué)
- 1.4.4 計(jì)算機(jī)科學(xué)
- 1.4.5 工程
- 1.4.6 數(shù)學(xué)
- 1.4.7 運(yùn)籌學(xué)
- 1.5 社會影響
- 1.6 本書組織結(jié)構(gòu)
- 1.6.1 概率推理
- 1.6.2 序列問題
- 1.6.3 模型不確定性
- 1.6.4 狀態(tài)不確定性
- 1.6.5 多智能體系統(tǒng)
- 第一部分 概率推理
- 第2章 表示
- 2.1 信念度和概率
- 2.2 概率分布
- 2.2.1 離散概率分布
- 2.2.2 連續(xù)概率分布
- 2.3 聯(lián)合分布
- 2.3.1 離散聯(lián)合分布
- 2.3.2 連續(xù)聯(lián)合分配
- 2.4 條件分布
- 2.4.1 離散條件模型
- 2.4.2 條件高斯模型
- 2.4.3 線性高斯模型
- 2.4.4 條件線性高斯模型
- 2.4.5 sigmoid模型
- 2.4.6 確定性變量
- 2.5 貝葉斯網(wǎng)絡(luò)
- 2.6 條件獨(dú)立性
- 2.7 本章小結(jié)
- 2.8 練習(xí)題
- 第3章 推理
- 3.1 貝葉斯網(wǎng)絡(luò)中的推理
- 3.2 樸素貝葉斯模型中的推理
- 3.3 “和-積”變量消除
- 3.4 信念傳播
- 3.5 計(jì)算復(fù)雜度
- 3.6 直接抽樣
- 3.7 似然加權(quán)抽樣
- 3.8 吉布斯抽樣
- 3.9 高斯模型中的推理
- 3.10 本章小結(jié)
- 3.11 練習(xí)題
- 第4章 參數(shù)學(xué)習(xí)
- 4.1 最大似然參數(shù)學(xué)習(xí)
- 4.1.1 類別分布的最大似然估計(jì)
- 4.1.2 高斯分布的最大似然估計(jì)
- 4.1.3 貝葉斯網(wǎng)絡(luò)的最大似然估計(jì)
- 4.2 貝葉斯參數(shù)學(xué)習(xí)
- 4.2.1 二元分布的貝葉斯學(xué)習(xí)
- 4.2.2 類別分布的貝葉斯學(xué)習(xí)
- 4.2.3 貝葉斯網(wǎng)絡(luò)的貝葉斯學(xué)習(xí)
- 4.3 非參數(shù)學(xué)習(xí)
- 4.4 缺失數(shù)據(jù)的學(xué)習(xí)
- 4.4.1 數(shù)據(jù)插值
- 4.4.2 期望最大化
- 4.5 本章小結(jié)
- 4.6 練習(xí)題
- 第5章 結(jié)構(gòu)學(xué)習(xí)
- 5.1 貝葉斯網(wǎng)絡(luò)評分
- 5.2 有向圖搜索
- 5.3 馬爾可夫等價(jià)類
- 5.4 部分有向圖搜索
- 5.5 本章小結(jié)
- 5.6 練習(xí)題
- 第6章 簡單決策
- 6.1 理性偏好上的約束
- 6.2 效用函數(shù)
- 6.3 效用誘導(dǎo)
- 6.4 最大期望效用原則
- 6.5 決策網(wǎng)絡(luò)
- 6.6 信息價(jià)值
- 6.7 非理性
- 6.8 本章小結(jié)
- 6.9 練習(xí)題
- 第二部分 序列問題
- 第7章 精確求解方法
- 7.1 馬爾可夫決策過程
- 7.2 策略評估
- 7.3 值函數(shù)策略
- 7.4 策略迭代
- 7.5 值迭代
- 7.6 異步值迭代
- 7.7 線性規(guī)劃方程
- 7.8 具有二次型獎勵的線性系統(tǒng)
- 7.9 本章小結(jié)
- 7.10 練習(xí)題
- 第8章 近似值函數(shù)
- 8.1 參數(shù)化表示
- 8.2 最近鄰
- 8.3 核平滑
- 8.4 線性插值
- 8.5 單純形插值
- 8.6 線性回歸
- 8.7 神經(jīng)網(wǎng)絡(luò)回歸
- 8.8 本章小結(jié)
- 8.9 練習(xí)題
- 第9章 在線規(guī)劃
- 9.1 滾動時(shí)域規(guī)劃
- 9.2 基于預(yù)演的前瞻算法
- 9.3 正向搜索
- 9.4 分支定界法
- 9.5 稀疏抽樣
- 9.6 蒙特卡羅樹搜索
- 9.7 啟發(fā)式搜索
- 9.8 標(biāo)記啟發(fā)式搜索
- 9.9 開環(huán)規(guī)劃
- 9.9.1 確定性模型預(yù)測控制
- 9.9.2 魯棒模型預(yù)測控制
- 9.9.3 多重預(yù)測模型預(yù)測控制
- 9.10 本章小結(jié)
- 9.11 練習(xí)題
- 第10章 策略搜索
- 10.1 近似策略評估
- 10.2 局部搜索
- 10.3 遺傳算法
- 10.4 交叉熵方法
- 10.5 進(jìn)化策略
- 10.6 各向同性進(jìn)化策略
- 10.7 本章小結(jié)
- 10.8 練習(xí)題
- 第11章 策略梯度值的估算
- 11.1 有限差分
- 11.2 回歸梯度
- 11.3 似然比
- 11.4 “之后的獎勵”方法
- 11.5 基線扣除法
- 11.6 本章小結(jié)
- 11.7 練習(xí)題
- 第12章 策略梯度的優(yōu)化
- 12.1 梯度上升更新
- 12.2 帶約束條件的梯度更新
- 12.3 自然梯度更新
- 12.4 信任區(qū)域更新
- 12.5 剪裁代理目標(biāo)
- 12.6 本章小結(jié)
- 12.7 練習(xí)題
- 第13章 “行為者-評論家”方法
- 13.1 “行為者-評論家”
- 13.2 廣義優(yōu)勢估計(jì)
- 13.3 確定性策略梯度
- 13.4 蒙特卡羅樹搜索的“行為者-評論家”
- 13.5 本章小結(jié)
- 13.6 練習(xí)題
- 第14章 策略驗(yàn)證
- 14.1 性能指標(biāo)評估
- 14.2 罕見事件模擬
- 14.3 魯棒性分析
- 14.4 權(quán)衡分析
- 14.5 對抗性分析
- 14.6 本章小結(jié)
- 14.7 練習(xí)題
- 第三部分 模型不確定性
- 第15章 探索和利用
- 15.1 賭博機(jī)問題
- 15.2 貝葉斯模型估計(jì)
- 15.3 無向探索策略
- 15.4 有向探索策略
- 15.5 最佳探索策略
- 15.6 使用多個(gè)狀態(tài)進(jìn)行探索
- 15.7 本章小結(jié)
- 15.8 練習(xí)題
- 第16章 基于模型的方法
- 16.1 最大似然模型
- 16.2 更新方案
- 16.2.1 完整更新
- 16.2.2 隨機(jī)更新
- 16.2.3 優(yōu)先更新
- 16.3 探索策略
- 16.4 貝葉斯方法
- 16.5 貝葉斯自適應(yīng)馬爾可夫決策過程
- 16.6 后驗(yàn)抽樣
- 16.7 本章小結(jié)
- 16.8 練習(xí)題
- 第17章 無模型的方法
- 17.1 均值的增量估計(jì)
- 17.2 Q-學(xué)習(xí)
- 17.3 Sarsa
- 17.4 資格跡
- 17.5 獎勵塑形
- 17.6 行為值函數(shù)近似
- 17.7 經(jīng)驗(yàn)回放
- 17.8 本章小結(jié)
- 17.9 練習(xí)題
- 第18章 模仿學(xué)習(xí)
- 18.1 行為克隆
- 18.2 數(shù)據(jù)集聚合
- 18.3 隨機(jī)混合迭代學(xué)習(xí)
- 18.4 最大邊際逆向強(qiáng)化學(xué)習(xí)
- 18.5 最大熵逆向強(qiáng)化學(xué)習(xí)
- 18.6 生成式對抗性模仿學(xué)習(xí)
- 18.7 本章小結(jié)
- 18.8 練習(xí)題
- 第四部分 狀態(tài)不確定性
- 第19章 信念
- 19.1 信念初始化
- 19.2 離散狀態(tài)濾波器
- 19.3 卡爾曼濾波器
- 19.4 擴(kuò)展卡爾曼濾波器
- 19.5 無跡卡爾曼濾波器
- 19.6 粒子濾波器
- 19.7 粒子注入
- 19.8 本章小結(jié)
- 19.9 練習(xí)題
- 第20章 精確信念狀態(tài)規(guī)劃
- 20.1 信念-狀態(tài)馬爾可夫決策過程
- 20.2 條件規(guī)劃
- 20.3 阿爾法向量
- 20.4 剪枝
- 20.5 值迭代
- 20.6 線性策略
- 20.7 本章小結(jié)
- 20.8 練習(xí)題
- 第21章 離線信念狀態(tài)規(guī)劃
- 21.1 完全可觀測值的近似
- 21.2 快速通知界限
- 21.3 快速下界
- 21.4 基于點(diǎn)的值迭代
- 21.5 基于隨機(jī)點(diǎn)的值迭代
- 21.6 鋸齒上界
- 21.7 點(diǎn)選擇
- 21.8 鋸齒啟發(fā)式搜索
- 21.9 三角化的值函數(shù)
- 21.10 本章小結(jié)
- 21.11 練習(xí)題
- 第22章 在線信念狀態(tài)規(guī)劃
- 22.1 具有預(yù)演的前瞻策略
- 22.2 正向搜索
- 22.3 分支定界法
- 22.4 稀疏抽樣
- 22.5 蒙特卡羅樹搜索
- 22.6 確定性稀疏樹搜索
- 22.7 間隙啟發(fā)式搜索
- 22.8 本章小結(jié)
- 22.9 練習(xí)題
- 第23章 控制器抽象
- 23.1 控制器
- 23.2 策略迭代
- 23.3 非線性規(guī)劃
- 23.4 梯度上升
- 23.5 本章小結(jié)
- 23.6 練習(xí)題
- 第五部分 多智能體系統(tǒng)
- 第24章 多智能體推理
- 24.1 簡單博弈
- 24.2 響應(yīng)模型
- 24.2.1 最優(yōu)響應(yīng)
- 24.2.2 Softmax響應(yīng)
- 24.3 主導(dǎo)策略均衡
- 24.4 納什均衡
- 24.5 相關(guān)均衡
- 24.6 迭代式最優(yōu)響應(yīng)
- 24.7 層次化Softmax
- 24.8 虛構(gòu)博弈
- 24.9 梯度上升
- 24.10 本章小結(jié)
- 24.11 練習(xí)題
- 第25章 序列問題
- 25.1 馬爾可夫博弈
- 25.2 響應(yīng)模型
- 25.2.1 最優(yōu)響應(yīng)
- 25.2.2 Softmax響應(yīng)
- 25.3 納什均衡
- 25.4 虛構(gòu)博弈
- 25.5 梯度上升
- 25.6 納什Q-學(xué)習(xí)
- 25.7 本章小結(jié)
- 25.8 練習(xí)題
- 第26章 狀態(tài)不確定性
- 26.1 部分可觀測馬爾可夫博弈
- 26.2 策略評估
- 26.2.1 評估條件規(guī)劃
- 26.2.2 評估隨機(jī)控制器
- 26.3 納什均衡
- 26.4 動態(tài)規(guī)劃
- 26.5 本章小結(jié)
- 26.6 練習(xí)題
- 第27章 協(xié)作智能體
- 27.1 分散的部分可觀測馬爾可夫決策過程
- 27.2 Dec-POMDP的子類別
- 27.3 動態(tài)規(guī)劃
- 27.4 迭代式最優(yōu)響應(yīng)
- 27.5 啟發(fā)式搜索
- 27.6 非線性規(guī)劃
- 27.7 本章小結(jié)
- 27.8 練習(xí)題
- 附錄
- 附錄A 數(shù)學(xué)概念
- A.1 測度空間
- A.2 概率空間
- A.3 度量空間
- A.4 賦范向量空間
- A.5 正定性
- A.6 凸性
- A.7 信息量
- A.8 熵
- A.9 交叉熵
- A.10 相對熵
- A.11 梯度上升
- A.12 泰勒展開式
- A.13 蒙特卡羅估計(jì)方法
- A.14 重要性采樣技術(shù)
- A.15 收縮映射
- A.16 圖
- 附錄B 概率分布
- 附錄C 計(jì)算復(fù)雜度
- C.1 漸近表示法
- C.2 時(shí)間復(fù)雜度的級別
- C.3 空間復(fù)雜度的級別
- C.4 可判定性
- 附錄D 神經(jīng)網(wǎng)絡(luò)表示
- D.1 神經(jīng)網(wǎng)絡(luò)
- D.2 前饋網(wǎng)絡(luò)
- D.3 參數(shù)正則化
- D.4 卷積神經(jīng)網(wǎng)絡(luò)
- D.5 循環(huán)神經(jīng)網(wǎng)絡(luò)
- D.6 自動編碼器神經(jīng)網(wǎng)絡(luò)
- D.7 對抗式神經(jīng)網(wǎng)絡(luò)
- 附錄E 搜索算法
- E.1 搜索問題
- E.2 搜索圖
- E.3 正向搜索
- E.4 分支定界法
- E.5 動態(tài)規(guī)劃
- E.6 啟發(fā)式搜索
- 附錄F 決策問題
- F.1 六邊形世界問題
- F.2 2048問題
- F.3 “推車-豎桿”問題
- F.4 山地車問題
- F.5 簡單調(diào)節(jié)器問題
- F.6 飛機(jī)防撞問題
- F.7 哭鬧的嬰兒問題
- F.8 機(jī)器更換問題
- F.9 接球問題
- F.10 囚徒的困境
- F.11 “石頭、剪刀、布”問題
- F.12 旅行者困境問題
- F.13 “捕食者-獵物”六邊形世界問題
- F.14 包含多位護(hù)理者的哭鬧的嬰兒問題
- F.15 協(xié)作式“捕食者-獵物”六邊形世界問題
- 附錄G Julia
- G.1 數(shù)據(jù)類型
- G.1.1 布爾類型
- G.1.2 數(shù)值類型
- G.1.3 字符串
- G.1.4 符號
- G.1.5 向量
- G.1.6 矩陣
- G.1.7 元組
- G.1.8 命名元組
- G.1.9 字典
- G.1.10 組合類型
- G.1.11 抽象類型
- G.1.12 參數(shù)化類型
- G.2 函數(shù)
- G.2.1 命名函數(shù)
- G.2.2 匿名函數(shù)
- G.2.3 可調(diào)用對象
- G.2.4 可選參數(shù)
- G.2.5 關(guān)鍵字參數(shù)
- G.2.6 調(diào)度分派
- G.2.7 解包
- G.3 控制流程
- G.3.1 條件求值
- G.3.2 循環(huán)
- G.3.3 迭代器
- G.4 包
- G.4.1 Graphs.jl
- G.4.2 Distributions.jl
- G.4.3 JuMP.jl
- G.5 實(shí)用函數(shù)
- 參考文獻(xiàn)
- 推薦閱讀
- 譯者簡介
- 封底 更新時(shí)間:2024-10-29 18:35:53