官术网_书友最值得收藏!

1.3.1 基于模型的(Model-Based)和無模型的(Model-Free)

在強化學習的過程中有時候需要對環境進行預測,這種預測往往在環境比較復雜,以及智能體和環境作用消耗的代價比較大的時候非常有用。典型的例子比如AlphaGo這個圍棋算法。對于算法來說,執行到圍棋棋局分出勝負為止往往需要耗費比較大的代價,這時候就可以使用一個模型對環境進行估計,比如估計局勢究竟是哪一方占優等。通過建立環境的模型,智能體也可以有效地對自身的路徑進行規劃,以取得更高的獎勵。需要注意的是,這里的模型指的是對環境建立一個模型來預測環境的變化,包括環境的獎勵、環境自身狀態的變化等。和前面介紹的使用模型來估計價值函數不同,這個估計是針對智能體自身的估計,而不是對環境的估計,這里需要區分開來。如果沒有對環境的建模過程,我們稱之為無模型的算法,本書主要介紹的是無模型的算法。

主站蜘蛛池模板: 夏津县| 婺源县| 进贤县| 惠州市| 南皮县| 仙居县| 宾川县| 商都县| 固安县| 长顺县| 浦江县| 山阴县| 松滋市| 通江县| 建湖县| 疏附县| 吉林省| 军事| 安阳县| 万山特区| 澄江县| 泾源县| 河东区| 永德县| 探索| 墨竹工卡县| 红安县| 黄陵县| 渝中区| 上杭县| 绥棱县| 石门县| 广昌县| 太仓市| 宜宾县| 团风县| 府谷县| 六盘水市| 攀枝花市| 定州市| 涡阳县|