官术网_书友最值得收藏!

1.2.2 馬爾可夫決策過程

回到前面的簡單模型中,在這個有關智能體的模型中,我們看到決策過程是一個順序的過程,用狀態的變化可以顯示為(s1a1)→r1→(s2a2)→r2→…→(stat→ rt。定義如下一個決策過程為馬爾可夫決策過程,即在智能體的策略π下,從狀態st轉移到狀態st+1的概率完全由狀態st和在該狀態下采取的動作at來決定。因此,可以將這個條件概率寫成如下形式:pπrtst+1|atst)。同時我們注意到,這個概率只由當前狀態和動作(stat)來決定,意味著這個決策過程和過去的歷史無關,即不需要追溯考慮更早時期如t-1,t-2時刻的狀態和動作,只需要關注當前的狀態和動作即可,這也是當前的這個強化學習決策過程中“馬爾可夫”名詞的由來。所謂馬爾可夫性,即意味著和過去的歷史無關。對于大多數的現實問題,馬爾可夫性的近視是一個很好的近似,同時也減少了問題的復雜度,方便問題的抽象。在強化學習領域的算法中,大多數算法都假設問題具有馬爾可夫性。

如上所述的一系列連續的決策過程被稱為任務(Task)。依據任務執行時間長短,可以將任務分成兩類,第一類任務有一個確定的終止時間,即到達時間T之后,整個決策過程自動終止,這類任務被稱為片段任務(Episodic Task)。第二類任務則可以無限執行下去,并沒有一個確定的終止時間,這類任務則被稱為連續任務(Continuous Task)。對于一個任務執行中的某一步來說,人們一般并不會只考慮當前步驟的獎勵,而是會綜合考慮當前步驟后續的影響,即需要綜合考慮當前步驟之后一系列步驟的綜合獎勵。舉個實際的例子,在挖礦的時候,往往有些礦脈看起來很明顯,但實際礦藏含量非常小,于是后續的開發價值就不大,而對于另外一些礦脈來說表面上看起來似乎沒有礦藏,但是深入挖掘后可以發現礦藏的儲量非常大。在強化學習的任務里需要考慮到某些狀態,雖然當前獎勵比較小,但是未來的獎勵非常豐厚。為了能夠描述這個問題,這里需要定義回報(Return)。和獎勵機制考慮當前步驟不同,回報考慮了所有未來的獎勵。當然對于未來的獎勵需要做一定的處理,這里需要引入一個概念,叫折扣系數(Discount Factor)γ(0<γ<1)。結合折扣系數的回報定義如下,其中式(1.1)為片段任務的回報定義,式(1.2)為連續任務的回報定義。從直觀上解釋,因為折扣系數在0和1之間,當前時刻的回報最關聯的應該是當前時刻的獎勵,隨著時間的推移,未來的獎勵和當前時刻的狀態,動作和獎勵的關聯越來越小,而且呈指數衰減,最后逐漸趨向于零。從公式中看,折扣系數起到了衰減未來獎勵貢獻的作用。除了這個作用,折扣系數能夠有效地避免回報函數趨向于無窮大,為了解釋這個問題,我們可以假設每個時間的獎勵固定為1,在執行連續任務的時候,如果沒有折扣系數,那么回報就是簡單地將未來的所有獎勵相加,結果會趨向無窮大發散。如果有折扣系數,通過極限可以求的整體回報是有限的,如式(1.3)所示。

可以看到,折扣系數越大,后續一系列的獎勵對于當前的回報影響就越大,可以認為強化學習算法看得越遠,相反,強化學習算法更關注的是當前狀態后面的少數幾個狀態。

主站蜘蛛池模板: 文登市| 松滋市| 泸定县| 临桂县| 长宁县| 高邮市| 鹤峰县| 崇阳县| 高密市| 泉州市| 郧西县| 阿拉善右旗| 韶关市| 改则县| 鄯善县| 江华| 图木舒克市| 南郑县| 鄂州市| 汪清县| 临夏市| 北票市| 图木舒克市| 中山市| 宁远县| 扎兰屯市| 白沙| 大渡口区| 清远市| 唐山市| 深圳市| 大理市| 华安县| 洪雅县| 军事| 四子王旗| 孝昌县| 呼和浩特市| 蒙山县| 通城县| 思南县|