- 統(tǒng)計策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用
- 趙婷婷
- 940字
- 2021-10-29 12:05:23
1.4 本書貢獻(xiàn)
本書致力于從機(jī)器學(xué)習(xí)及統(tǒng)計學(xué)的角度介紹強(qiáng)化學(xué)習(xí)領(lǐng)域中策略搜索算法的基本概念和不同場景下的實(shí)用算法。本書內(nèi)容有助于發(fā)展統(tǒng)計強(qiáng)化學(xué)習(xí)策略搜索算法,從而使智能系統(tǒng)能夠自主地發(fā)現(xiàn)未知環(huán)境中的最優(yōu)行為。在本節(jié)中,我們將概述本書的主要貢獻(xiàn)。
策略梯度是一種有效的無模型強(qiáng)化學(xué)習(xí)方法,但它存在梯度估計不穩(wěn)定性。在這個場景中,一個常見的挑戰(zhàn)是如何降低可靠策略更新的策略梯度估計的方差。本書首先在無模型框架下,對策略梯度法的穩(wěn)定性進(jìn)行了分析和改進(jìn)。
在較弱的假設(shè)條件下,我們首次證明基于參數(shù)探索的策略梯度算法(PGPE 算法)中的梯度估計方差比傳統(tǒng)策略梯度算法(REINFORCE 算法)小。然后,我們對 PGPE 算法提出了最優(yōu)基線,從而進(jìn)一步降低方差。我們也從理論層面上展示了在梯度估計的方差方面,最優(yōu)基線的 PGPE 算法比最優(yōu)基線的 REINFORCE算法更可取。
PGPE 算法和最優(yōu)基線的結(jié)合在一定程度上穩(wěn)定了策略更新的效果,但都沒有在目標(biāo)中直接考慮到梯度估計的方差。因此,我們通過直接采用策略梯度的方差作為正則化項,探索一種更明確的方法來進(jìn)一步減小方差。我們通過將策略梯度的方差直接納入目標(biāo)函數(shù)中,為 PGPE 算法設(shè)計了一個新的框架。提出的方差正則化框架可以自然地提高期望累積獎勵,同時降低梯度估計的方差。
將策略搜索應(yīng)用于關(guān)于智能系統(tǒng)的實(shí)際問題時,減少訓(xùn)練樣本的數(shù)量是必要的,因為采樣成本往往比計算成本高得多。因此,我們提出了一種新型有效樣本再利用的策略梯度方法,該方法系統(tǒng)地將可靠的策略梯度 PGPE 算法、重要采樣和最優(yōu)常數(shù)基線相結(jié)合。我們從理論上展示了在合理條件下,引入最優(yōu)常數(shù)基線可以緩解重要權(quán)重方差較大的問題。
最優(yōu)基線可以使梯度估計的方差最小化,并保持其無偏性,這可以提供更穩(wěn)定的梯度估計。然而,最優(yōu)基線無法避免在不對稱獎勵分配問題中產(chǎn)生誤導(dǎo)性獎勵。對此,我們提出了基于 PGPE 算法的對稱采樣技術(shù),它使用了兩個假設(shè)左右對稱的樣本來規(guī)避使用常規(guī)基線方法收集的非對稱獎勵分配問題中的誤導(dǎo)性獎勵。通過數(shù)值示例,說明對稱采樣技術(shù)不僅在復(fù)雜的搜索空間中對所需樣本更高效,而且在更不穩(wěn)定的搜索空間中顯示出了更強(qiáng)的魯棒性。
最終,為了探索本書所述的策略搜索算法在智能控制領(lǐng)域的實(shí)用性,我們將正則化策略搜索算法應(yīng)用到數(shù)字藝術(shù)渲染領(lǐng)域,將樣本重復(fù)使用的策略搜索算法應(yīng)用到人形機(jī)器人 CB-i中。
- 中文版Photoshop CS5數(shù)碼照片處理完全自學(xué)一本通
- 基于LabWindows/CVI的虛擬儀器設(shè)計與應(yīng)用
- Dreamweaver CS3網(wǎng)頁設(shè)計50例
- 傳感器技術(shù)應(yīng)用
- 運(yùn)動控制器與交流伺服系統(tǒng)的調(diào)試和應(yīng)用
- 愛犯錯的智能體
- 影視后期編輯與合成
- 工業(yè)機(jī)器人運(yùn)動仿真編程實(shí)踐:基于Android和OpenGL
- 悟透AutoCAD 2009案例自學(xué)手冊
- 激光選區(qū)熔化3D打印技術(shù)
- Silverlight 2完美征程
- 空間機(jī)器人
- 30天學(xué)通Java Web項目案例開發(fā)
- 機(jī)器人制作入門(第4版)
- Visual Basic項目開發(fā)案例精粹