官术网_书友最值得收藏!

1.2.1 智能體相關概念

從最廣義的概念上說,人工智能指的應該是所謂的通用人工智能(Artificial General Intelligence, AGI),其定義是一個人造的智能體(Intelligent Agent),這個主體能夠感知周圍的環境,并且能夠對周圍環境做出一定的響應,從而能夠完成人類為其設定的目標。這個概念就和強化學習算法的一些基礎思想非常接近,因此強化學習也在現階段的研究中被視為最接近通用人工智能的方法之一。所謂強化學習(Reinforcement Learning, RL),就是給定一個學習環境(Environment)和智能體(Agent),通過調節智能體在環境中活動的策略,讓智能體在活動中獲取獎勵(Reward),并且讓智能體獲得獎勵最大化的過程。智能體的整個訓練過程可以通過圖1.2來表示。

圖1.2 強化學習決策過程

在圖1.2中,智能體在t時刻有一個狀態(State)st,它執行了一個動作(Action)at,并獲取了環境的反饋,即所謂的獎勵(Reward)rt,同時智能體將自身的狀態更新到st+1。在這個過程中,我們稱智能體執行動作所基于的依據為策略(Policy)π,一般來說,強化學習的策略應盡可能讓智能體能夠獲得的獎勵期望最高。注意到以上的概念都為實際問題的抽象,這里舉一個直觀的例子來闡述這些抽象的概念。假如有一個智能掃地機器人負責室內清掃,用上面的術語進行敘述,智能掃地機器人可以看作智能體,智能體在t時刻的狀態可以(粗略地)認為是掃地機器人所處的位置和周圍的情況(這里假設機器人只能感知周邊的一小片區域),掃地機器人在t時刻的動作有兩種,第一種是移動到周圍的另外一個區域,第二種是打掃。當打掃的區域從臟的狀態變成干凈狀態的時候,我們讓掃地機器人獲取一定的獎勵。同時,掃地機器人會根據原來的動作,決定是否停留在原來的位置(當上一步做出打掃這個動作時),或者移動到一個新的位置(當上一步做出移動這個動作時)。掃地機器人的策略是在給定的行動步數條件下盡可能多地清潔臟的區域。

這里需要注意兩點,第一點是智能體和環境其實是密不可分的。以掃地機器人為例,按照我們的敘述框架,掃地機器人不斷改變狀態并且獲得獎勵,周圍的環境發生清潔,其實決定掃地機器人狀態的不只是它本身,還有周圍的環境。這是因為只有在環境的某個位置為臟的情況下,掃地機器人移動到這個位置才有可能獲得獎勵。同時,智能體獲取獎勵也不是只由環境決定,比如,在這個例子里掃地機器人可能安裝了傳感器,由傳感器對環境的探測來決定是否得到獎勵,于是這個獎勵是智能體(也就是帶有傳感器的機器人)加上環境共同賦予的。因此,在研究實際問題的時候不應該把智能體和環境簡單地切割開來,需要認為這兩個相互作用,共同決定了狀態和獎勵。第二點是智能體和環境有可能處在外界的不斷干擾中,也就是說,環境會隨著時間不斷發生變化。舉例來說,室內的環境可能會發生變化,一塊區域經過一段時間后由于某種原因變臟,智能體在行進路線上也可能會碰到不同的障礙物,而且障礙物可能會被人為移動。這些都是變化的因素,在構造強化學習算法的時候也需要對這些因素做一定的考量。

主站蜘蛛池模板: 太白县| 兴业县| 康乐县| 宿松县| 安泽县| 怀远县| 永定县| 松江区| 巴南区| 松江区| 克东县| 望江县| 乌拉特后旗| 获嘉县| 卫辉市| 石棉县| 疏附县| 田东县| 游戏| 南宫市| 磐安县| 响水县| 沅陵县| 泗阳县| 铜川市| 临汾市| 来凤县| 上栗县| 宁远县| 奎屯市| 舟山市| 嘉荫县| 姜堰市| 故城县| 揭东县| 房产| 马鞍山市| 曲阜市| 互助| 固原市| 巴南区|