官术网_书友最值得收藏!

2.5 總結

在本章中,著重深入介紹了第1章中粗略介紹的一些強化學習的基礎名詞和概念。同時,通過使用一些簡單的例子,希望能夠幫助讀者深入理解強化學習中一些基礎的做法,比如,如何估計狀態價值函數,如何對狀態價值函數進行迭代,從而讓該函數收斂,以及如何進行策略迭代和價值迭代,以獲取最優的狀態價值函數和最優的策略。

由于本章涉及比較多的數學知識,讀者可以以本章作為參考,在需要的時候查閱對應的內容,這有助于讀者更好地理解后續的一系列算法。

主站蜘蛛池模板: 澎湖县| 玉龙| 松阳县| 嘉善县| 公主岭市| 马龙县| 颍上县| 高邑县| 张北县| 孝昌县| 资阳市| 皮山县| 宣汉县| 望谟县| 北京市| 高州市| 武胜县| 乡城县| 张家界市| 开阳县| 灵石县| 手游| 克什克腾旗| 安化县| 唐山市| 张家川| 巴中市| 弥勒县| 丹阳市| 无锡市| 沁阳市| 玛纳斯县| 时尚| 西林县| 澄城县| 贡觉县| 青铜峡市| 阿合奇县| 行唐县| 东源县| 泗阳县|