官术网_书友最值得收藏!

1.2.3 任務環境

智能體要采取正確的動作,與傳感器對環境狀態的檢測有關。如果傳感器可以檢測到與選擇動作相關的所有方面,那么任務環境是有效的完全可觀測的(fully observable),相關性依賴于性能度量。完全可觀察環境的優點意味著在學習和決策過程中,不需要智能體來保持環境的內部狀態。然而,由于環境中的目標過程可能是隱含的,或者傳感器有噪聲或不準確,因此環境是部分可觀測的。在某些情況下,環境可能是不可觀測的,但仍然有可能實現智能體的目標。

在一系列獨立事件組成的任務環境中,智能體的體驗由獨立事件原子組成。在每一個事件中,智能體接收感知,然后執行動作。至關重要的是,下一事件并不取決于前一事件中所采取的動作。例如,裝配線上的機器人以偶發的方式工作。然而,在連續環境中,當前的決策可能會影響未來的決策。例如,國際象棋智能體在連續環境中下棋。在這兩種情況下,短期動作都可能產生長期后果。智能體在獨立事件或實例中的決策集合稱為它的策略

為了使智能體能夠制訂智能動作并有效地進行計算,引入了狀態空間的概念。狀態中的信息允許對動作有用的預測描述。一個適當的動作可以通過搜索整個狀態空間來獲得,或者通過下述假設下的任何計算有效的方法來達到類似的目的:

●智能體對狀態空間有完全的了解,并且有觀察狀態的計劃(即完全可觀測性)。

●智能體知道動作的后果。

●存在對智能體的性能度量,以確定一個狀態是否滿足其目標。

解或解決方案是一個動作序列,這些動作允許智能體從當前狀態到達滿足其目標的狀態。

例:假設一個送貨機器人將包裹從ENB 118房間送到目的地ENB 245房間。當前和啟動(或初始)狀態是ENB 118,ENB 245是其完成任務時的狀態。狀態sn可以被定義為ENB樓中某個房間(編號為n)前面的位置,初始狀態為s118,目標狀態為s245。動作a1表示移動到下一個房間,動作a0表示目標狀態的停止。交付任務的評估是實現目標的步驟。

一個狀態空間問題一般包括:

●狀態集。

●開始狀態(或者初始狀態)。

●每種狀態下智能體可執行的動作集合。

●目標狀態,可指定為一個布爾函數,當狀態滿足目標時為真。

●確定可接受的解決方案(例如,送貨機器人完成任務的時間)質量的標準。

狀態空間法是許多機器人問題建模的有效方法。

練習:考慮圖1.8中所示的平衡桿問題,假設我們僅考慮平面場景,這意味著平臺只能按照0,1,2,3,4,5m/s這幾種可能的速度左右移動,并且質量均勻的桿也只能順時針或逆時針移動。假設平臺可以精確獲取均勻密度(從而重量分布均勻)桿的角度。請設計一個強化學習算法來平衡這根桿。為便于計算,假設重力加速度g=10m/s2,且無摩擦力。請為這個動態系統定義一個適當的狀態空間。

圖1.8 平衡桿

主站蜘蛛池模板: 秀山| 大石桥市| 六枝特区| 喀什市| 河间市| 韩城市| 池州市| 荃湾区| 西林县| 内丘县| 昂仁县| 广昌县| 当阳市| 山丹县| 金坛市| 上栗县| 黄冈市| 竹溪县| 荆州市| 无锡市| 赤峰市| 凤阳县| 灵台县| 万荣县| 白玉县| 黄浦区| 祁门县| 五家渠市| 尼勒克县| 鹤岗市| 保定市| 塘沽区| 鄄城县| 南乐县| 麟游县| 邢台县| 泗水县| 商水县| 嘉祥县| 宝坻区| 汉寿县|