- 深度強化學習算法與實踐:基于PyTorch的實現
- 張校捷編著
- 349字
- 2022-05-06 17:08:29
1.3.1 基于模型的(Model-Based)和無模型的(Model-Free)
在強化學習的過程中有時候需要對環境進行預測,這種預測往往在環境比較復雜,以及智能體和環境作用消耗的代價比較大的時候非常有用。典型的例子比如AlphaGo這個圍棋算法。對于算法來說,執行到圍棋棋局分出勝負為止往往需要耗費比較大的代價,這時候就可以使用一個模型對環境進行估計,比如估計局勢究竟是哪一方占優等。通過建立環境的模型,智能體也可以有效地對自身的路徑進行規劃,以取得更高的獎勵。需要注意的是,這里的模型指的是對環境建立一個模型來預測環境的變化,包括環境的獎勵、環境自身狀態的變化等。和前面介紹的使用模型來估計價值函數不同,這個估計是針對智能體自身的估計,而不是對環境的估計,這里需要區分開來。如果沒有對環境的建模過程,我們稱之為無模型的算法,本書主要介紹的是無模型的算法。