官术网_书友最值得收藏!

1.4 本書貢獻(xiàn)

本書致力于從機(jī)器學(xué)習(xí)及統(tǒng)計學(xué)的角度介紹強(qiáng)化學(xué)習(xí)領(lǐng)域中策略搜索算法的基本概念和不同場景下的實(shí)用算法。本書內(nèi)容有助于發(fā)展統(tǒng)計強(qiáng)化學(xué)習(xí)策略搜索算法,從而使智能系統(tǒng)能夠自主地發(fā)現(xiàn)未知環(huán)境中的最優(yōu)行為。在本節(jié)中,我們將概述本書的主要貢獻(xiàn)。

策略梯度是一種有效的無模型強(qiáng)化學(xué)習(xí)方法,但它存在梯度估計不穩(wěn)定性。在這個場景中,一個常見的挑戰(zhàn)是如何降低可靠策略更新的策略梯度估計的方差。本書首先在無模型框架下,對策略梯度法的穩(wěn)定性進(jìn)行了分析和改進(jìn)。

在較弱的假設(shè)條件下,我們首次證明基于參數(shù)探索的策略梯度算法(PGPE 算法)中的梯度估計方差比傳統(tǒng)策略梯度算法(REINFORCE 算法)小。然后,我們對 PGPE 算法提出了最優(yōu)基線,從而進(jìn)一步降低方差。我們也從理論層面上展示了在梯度估計的方差方面,最優(yōu)基線的 PGPE 算法比最優(yōu)基線的 REINFORCE算法更可取。

PGPE 算法和最優(yōu)基線的結(jié)合在一定程度上穩(wěn)定了策略更新的效果,但都沒有在目標(biāo)中直接考慮到梯度估計的方差。因此,我們通過直接采用策略梯度的方差作為正則化項,探索一種更明確的方法來進(jìn)一步減小方差。我們通過將策略梯度的方差直接納入目標(biāo)函數(shù)中,為 PGPE 算法設(shè)計了一個新的框架。提出的方差正則化框架可以自然地提高期望累積獎勵,同時降低梯度估計的方差。

將策略搜索應(yīng)用于關(guān)于智能系統(tǒng)的實(shí)際問題時,減少訓(xùn)練樣本的數(shù)量是必要的,因為采樣成本往往比計算成本高得多。因此,我們提出了一種新型有效樣本再利用的策略梯度方法,該方法系統(tǒng)地將可靠的策略梯度 PGPE 算法、重要采樣和最優(yōu)常數(shù)基線相結(jié)合。我們從理論上展示了在合理條件下,引入最優(yōu)常數(shù)基線可以緩解重要權(quán)重方差較大的問題。

最優(yōu)基線可以使梯度估計的方差最小化,并保持其無偏性,這可以提供更穩(wěn)定的梯度估計。然而,最優(yōu)基線無法避免在不對稱獎勵分配問題中產(chǎn)生誤導(dǎo)性獎勵。對此,我們提出了基于 PGPE 算法的對稱采樣技術(shù),它使用了兩個假設(shè)左右對稱的樣本來規(guī)避使用常規(guī)基線方法收集的非對稱獎勵分配問題中的誤導(dǎo)性獎勵。通過數(shù)值示例,說明對稱采樣技術(shù)不僅在復(fù)雜的搜索空間中對所需樣本更高效,而且在更不穩(wěn)定的搜索空間中顯示出了更強(qiáng)的魯棒性。

最終,為了探索本書所述的策略搜索算法在智能控制領(lǐng)域的實(shí)用性,我們將正則化策略搜索算法應(yīng)用到數(shù)字藝術(shù)渲染領(lǐng)域,將樣本重復(fù)使用的策略搜索算法應(yīng)用到人形機(jī)器人 CB-i中。

主站蜘蛛池模板: 比如县| 东乡族自治县| 通许县| 当阳市| 湘西| 进贤县| 林周县| 红原县| 永昌县| 吉木乃县| 仙游县| 安化县| 卓尼县| 博乐市| 绥中县| 东兰县| 隆子县| 阜新| 读书| 若羌县| 米林县| 西贡区| 洮南市| 洪洞县| 香港| 武义县| 巴林右旗| 常熟市| 连南| 江陵县| 昔阳县| 咸宁市| 伊金霍洛旗| 涞源县| 蒙自县| 左云县| 南川市| 唐海县| 建水县| 南宫市| 余江县|