巧克力棉花糖

2.5 總結

在本章中，著重深入介紹了第1章中粗略介紹的一些強化學習的基礎名詞和概念。同時，通過使用一些簡單的例子，希望能夠幫助讀者深入理解強化學習中一些基礎的做法，比如，如何估計狀態價值函數，如何對狀態價值函數進行迭代，從而讓該函數收斂，以及如何進行策略迭代和價值迭代，以獲取最優的狀態價值函數和最優的策略。

由于本章涉及比較多的數學知識，讀者可以以本章作為參考，在需要的時候查閱對應的內容，這有助于讀者更好地理解后續的一系列算法。