- 深度強化學習算法與實踐:基于PyTorch的實現
- 張校捷編著
- 1184字
- 2022-05-06 17:08:28
1.2.1 智能體相關概念
從最廣義的概念上說,人工智能指的應該是所謂的通用人工智能(Artificial General Intelligence, AGI),其定義是一個人造的智能體(Intelligent Agent),這個主體能夠感知周圍的環境,并且能夠對周圍環境做出一定的響應,從而能夠完成人類為其設定的目標。這個概念就和強化學習算法的一些基礎思想非常接近,因此強化學習也在現階段的研究中被視為最接近通用人工智能的方法之一。所謂強化學習(Reinforcement Learning, RL),就是給定一個學習環境(Environment)和智能體(Agent),通過調節智能體在環境中活動的策略,讓智能體在活動中獲取獎勵(Reward),并且讓智能體獲得獎勵最大化的過程。智能體的整個訓練過程可以通過圖1.2來表示。

圖1.2 強化學習決策過程
在圖1.2中,智能體在t時刻有一個狀態(State)st,它執行了一個動作(Action)at,并獲取了環境的反饋,即所謂的獎勵(Reward)rt,同時智能體將自身的狀態更新到st+1。在這個過程中,我們稱智能體執行動作所基于的依據為策略(Policy)π,一般來說,強化學習的策略應盡可能讓智能體能夠獲得的獎勵期望最高。注意到以上的概念都為實際問題的抽象,這里舉一個直觀的例子來闡述這些抽象的概念。假如有一個智能掃地機器人負責室內清掃,用上面的術語進行敘述,智能掃地機器人可以看作智能體,智能體在t時刻的狀態可以(粗略地)認為是掃地機器人所處的位置和周圍的情況(這里假設機器人只能感知周邊的一小片區域),掃地機器人在t時刻的動作有兩種,第一種是移動到周圍的另外一個區域,第二種是打掃。當打掃的區域從臟的狀態變成干凈狀態的時候,我們讓掃地機器人獲取一定的獎勵。同時,掃地機器人會根據原來的動作,決定是否停留在原來的位置(當上一步做出打掃這個動作時),或者移動到一個新的位置(當上一步做出移動這個動作時)。掃地機器人的策略是在給定的行動步數條件下盡可能多地清潔臟的區域。
這里需要注意兩點,第一點是智能體和環境其實是密不可分的。以掃地機器人為例,按照我們的敘述框架,掃地機器人不斷改變狀態并且獲得獎勵,周圍的環境發生清潔,其實決定掃地機器人狀態的不只是它本身,還有周圍的環境。這是因為只有在環境的某個位置為臟的情況下,掃地機器人移動到這個位置才有可能獲得獎勵。同時,智能體獲取獎勵也不是只由環境決定,比如,在這個例子里掃地機器人可能安裝了傳感器,由傳感器對環境的探測來決定是否得到獎勵,于是這個獎勵是智能體(也就是帶有傳感器的機器人)加上環境共同賦予的。因此,在研究實際問題的時候不應該把智能體和環境簡單地切割開來,需要認為這兩個相互作用,共同決定了狀態和獎勵。第二點是智能體和環境有可能處在外界的不斷干擾中,也就是說,環境會隨著時間不斷發生變化。舉例來說,室內的環境可能會發生變化,一塊區域經過一段時間后由于某種原因變臟,智能體在行進路線上也可能會碰到不同的障礙物,而且障礙物可能會被人為移動。這些都是變化的因素,在構造強化學習算法的時候也需要對這些因素做一定的考量。
- Django+Vue.js商城項目實戰
- Qt 5 and OpenCV 4 Computer Vision Projects
- Python語言程序設計
- ASP.NET 3.5程序設計與項目實踐
- Python數據可視化之Matplotlib與Pyecharts實戰
- Android底層接口與驅動開發技術詳解
- 零基礎輕松學SQL Server 2016
- Scala程序員面試算法寶典
- OpenResty完全開發指南:構建百萬級別并發的Web應用
- INSTANT Yii 1.1 Application Development Starter
- Red Hat Enterprise Linux Troubleshooting Guide
- Python Interviews
- Learning Splunk Web Framework
- Simulation for Data Science with R
- Java設計模式深入研究