一起玩捕鱼客服微信

書名：智能無線機器人：人工智能算法與應用
作者名： (美)陳光禎
本章字數： 1072字
更新時間： 2023-01-06 17:38:05

1.2.3　任務環境

智能體要采取正確的動作，與傳感器對環境狀態的檢測有關。如果傳感器可以檢測到與選擇動作相關的所有方面，那么任務環境是有效的完全可觀測的（fully observable），相關性依賴于性能度量。完全可觀察環境的優點意味著在學習和決策過程中，不需要智能體來保持環境的內部狀態。然而，由于環境中的目標過程可能是隱含的，或者傳感器有噪聲或不準確，因此環境是部分可觀測的。在某些情況下，環境可能是不可觀測的，但仍然有可能實現智能體的目標。

在一系列獨立事件組成的任務環境中，智能體的體驗由獨立事件原子組成。在每一個事件中，智能體接收感知，然后執行動作。至關重要的是，下一事件并不取決于前一事件中所采取的動作。例如，裝配線上的機器人以偶發的方式工作。然而，在連續環境中，當前的決策可能會影響未來的決策。例如，國際象棋智能體在連續環境中下棋。在這兩種情況下，短期動作都可能產生長期后果。智能體在獨立事件或實例中的決策集合稱為它的策略。

為了使智能體能夠制訂智能動作并有效地進行計算，引入了狀態空間的概念。狀態中的信息允許對動作有用的預測描述。一個適當的動作可以通過搜索整個狀態空間來獲得，或者通過下述假設下的任何計算有效的方法來達到類似的目的：

●智能體對狀態空間有完全的了解，并且有觀察狀態的計劃（即完全可觀測性）。

●智能體知道動作的后果。

●存在對智能體的性能度量，以確定一個狀態是否滿足其目標。

解或解決方案是一個動作序列，這些動作允許智能體從當前狀態到達滿足其目標的狀態。

例：假設一個送貨機器人將包裹從ENB 118房間送到目的地ENB 245房間。當前和啟動（或初始）狀態是ENB 118，ENB 245是其完成任務時的狀態。狀態sn可以被定義為ENB樓中某個房間（編號為n）前面的位置，初始狀態為s118，目標狀態為s245。動作a1表示移動到下一個房間，動作a0表示目標狀態的停止。交付任務的評估是實現目標的步驟。

一個狀態空間問題一般包括：

●狀態集。

●開始狀態（或者初始狀態）。

●每種狀態下智能體可執行的動作集合。

●目標狀態，可指定為一個布爾函數，當狀態滿足目標時為真。

●確定可接受的解決方案（例如，送貨機器人完成任務的時間）質量的標準。

狀態空間法是許多機器人問題建模的有效方法。

練習：考慮圖1.8中所示的平衡桿問題，假設我們僅考慮平面場景，這意味著平臺只能按照0，1，2，3，4，5m/s這幾種可能的速度左右移動，并且質量均勻的桿也只能順時針或逆時針移動。假設平臺可以精確獲取均勻密度（從而重量分布均勻）桿的角度。請設計一個強化學習算法來平衡這根桿。為便于計算，假設重力加速度g=10m/s2，且無摩擦力。請為這個動態系統定義一個適當的狀態空間。

圖1.8　平衡桿

官术网_书友最值得收藏!

智能無線機器人：人工智能算法與應用

1.2.3 任務環境

1.2.3　任務環境