書名: 智能無線機器人:人工智能算法與應用作者名: (美)陳光禎本章字數: 1072字更新時間: 2023-01-06 17:38:05
1.2.3 任務環境
智能體要采取正確的動作,與傳感器對環境狀態的檢測有關。如果傳感器可以檢測到與選擇動作相關的所有方面,那么任務環境是有效的完全可觀測的(fully observable),相關性依賴于性能度量。完全可觀察環境的優點意味著在學習和決策過程中,不需要智能體來保持環境的內部狀態。然而,由于環境中的目標過程可能是隱含的,或者傳感器有噪聲或不準確,因此環境是部分可觀測的。在某些情況下,環境可能是不可觀測的,但仍然有可能實現智能體的目標。
在一系列獨立事件組成的任務環境中,智能體的體驗由獨立事件原子組成。在每一個事件中,智能體接收感知,然后執行動作。至關重要的是,下一事件并不取決于前一事件中所采取的動作。例如,裝配線上的機器人以偶發的方式工作。然而,在連續環境中,當前的決策可能會影響未來的決策。例如,國際象棋智能體在連續環境中下棋。在這兩種情況下,短期動作都可能產生長期后果。智能體在獨立事件或實例中的決策集合稱為它的策略。
為了使智能體能夠制訂智能動作并有效地進行計算,引入了狀態空間的概念。狀態中的信息允許對動作有用的預測描述。一個適當的動作可以通過搜索整個狀態空間來獲得,或者通過下述假設下的任何計算有效的方法來達到類似的目的:
●智能體對狀態空間有完全的了解,并且有觀察狀態的計劃(即完全可觀測性)。
●智能體知道動作的后果。
●存在對智能體的性能度量,以確定一個狀態是否滿足其目標。
解或解決方案是一個動作序列,這些動作允許智能體從當前狀態到達滿足其目標的狀態。
例:假設一個送貨機器人將包裹從ENB 118房間送到目的地ENB 245房間。當前和啟動(或初始)狀態是ENB 118,ENB 245是其完成任務時的狀態。狀態sn可以被定義為ENB樓中某個房間(編號為n)前面的位置,初始狀態為s118,目標狀態為s245。動作a1表示移動到下一個房間,動作a0表示目標狀態的停止。交付任務的評估是實現目標的步驟。
一個狀態空間問題一般包括:
●狀態集。
●開始狀態(或者初始狀態)。
●每種狀態下智能體可執行的動作集合。
●目標狀態,可指定為一個布爾函數,當狀態滿足目標時為真。
●確定可接受的解決方案(例如,送貨機器人完成任務的時間)質量的標準。
狀態空間法是許多機器人問題建模的有效方法。
練習:考慮圖1.8中所示的平衡桿問題,假設我們僅考慮平面場景,這意味著平臺只能按照0,1,2,3,4,5m/s這幾種可能的速度左右移動,并且質量均勻的桿也只能順時針或逆時針移動。假設平臺可以精確獲取均勻密度(從而重量分布均勻)桿的角度。請設計一個強化學習算法來平衡這根桿。為便于計算,假設重力加速度g=10m/s2,且無摩擦力。請為這個動態系統定義一個適當的狀態空間。

圖1.8 平衡桿