官术网_书友最值得收藏!

2.5 Dopamine簡介

深度強化學習領域最近的一項有趣發展是Dopamine。Dopamine是關于深度強化學習算法的一種快速原型程序框架。本書將非常簡要地介紹強化學習,但你需要知道如何安裝Dopamine。

在強化學習領域,新用戶很容易使用Dopamine。此外,雖然它不是谷歌的官方產品,但它的大多數開發人員都是谷歌員工。在編寫本書時,這個框架的當前狀態是非常緊湊的,并且提供了隨時可用的算法。

運行下列指令以安裝Dopamine:

可以通過執行以下操作來測試是否正確安裝了Dopamine:

這條指令不會提供輸出,除非有錯誤。通常情況下,Dopamine會利用它之外的許多程序庫來做更多有趣的事情?,F在,人們可以使用強化學習做的最有趣的事情是使用獎勵政策來訓練智能體,這在游戲中可以直接應用。

例如,如圖2.2所示,它顯示了一個電子游戲學習過程中的時間快照,使用的策略是根據智能體采取的行動來強化想要的行為。

圖2.2 游戲中Dopamine強化學習智能體的樣本可視化

強化學習中的智能體是決定下一步采取什么行動的部分。智能體通過觀察世界和世界的規則來實現這一點。規則定義得越多,結果受到的約束就越大。如果規則過于寬松,智能體則可能無法就采取何種行動做出良好的決策。

雖然本書沒有深入研究強化學習,但我們將在本書的最后一章討論一個有趣的游戲應用?,F在,你可以閱讀下面的白皮書,了解更多關于Dopamine的信息(Castro,P.S.,et.al.,2018)。

主站蜘蛛池模板: 波密县| 甘南县| 台北县| 廊坊市| 阳曲县| 民县| 资中县| 若尔盖县| 海城市| 梓潼县| 铜川市| 南安市| 依安县| 天台县| 灵石县| 肇州县| 安达市| 洛宁县| 荥阳市| 宁阳县| 翁源县| 滨海县| 邯郸县| 青阳县| 霍山县| 临漳县| 安岳县| 若尔盖县| 昭苏县| 威远县| 磐石市| 贵定县| 怀来县| 凤阳县| 清苑县| 望谟县| 上栗县| 牟定县| 镇赉县| 神农架林区| 乐平市|