官术网_书友最值得收藏!

3.1.2 多臂賭博機(jī)(Multi-armed Bandit)

如同2.2節(jié)中介紹的一樣,多臂賭博機(jī)是這樣一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境。在這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境中有N個(gè)搖桿,對(duì)應(yīng)智能體的決策過(guò)程是選擇這N個(gè)搖桿中的一個(gè),這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境會(huì)根據(jù)搖桿預(yù)設(shè)的期望和方差(每個(gè)搖桿對(duì)應(yīng)一個(gè)具體的期望和方差,對(duì)于智能體來(lái)說(shuō),這兩個(gè)參數(shù)是未知的),從服從對(duì)應(yīng)期望和方差的正態(tài)分布中采樣,得到一個(gè)具體的值返回作為智能體獲得的獎(jiǎng)勵(lì)。對(duì)于智能體來(lái)說(shuō),對(duì)應(yīng)的狀態(tài)是選擇的搖桿,改變狀態(tài)即為改變選擇的搖桿,智能體對(duì)應(yīng)的動(dòng)作即為選擇一個(gè)新的搖桿。

多臂賭博機(jī)這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境的意義在于,每次返回的獎(jiǎng)勵(lì)值都是隨機(jī)的值。因此,有可能智能體在用貪心策略做決策選擇一個(gè)新的搖桿時(shí)會(huì)碰到期望比較低,但是碰巧在上一步(或者上幾步)生成的獎(jiǎng)勵(lì)比較大的狀態(tài),這時(shí)智能體就可能被困在這個(gè)狀態(tài)上,從而無(wú)法獲取更大的獎(jiǎng)勵(lì)。這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境和對(duì)應(yīng)的算法是一個(gè)很好地闡述強(qiáng)化學(xué)習(xí)算法的探索和利用這兩個(gè)對(duì)立方面的例子。

主站蜘蛛池模板: 固镇县| 稻城县| 彰化县| 通榆县| 新密市| 抚顺县| 陕西省| 伊吾县| 尖扎县| 呼和浩特市| 忻州市| 中方县| 噶尔县| 黎平县| 拜泉县| 日土县| 靖安县| 久治县| 化隆| 凌云县| 福安市| 金平| 竹溪县| 辽宁省| 九龙城区| 响水县| 临沂市| 武隆县| 盐山县| 霍州市| 莱西市| 怀仁县| 贺州市| 仲巴县| 扶风县| 吴川市| 浦东新区| 柘城县| 惠东县| 娄底市| 巧家县|