国内最大的游戏平台

書(shū)名：深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐：基于PyTorch的實(shí)現(xiàn)
作者名：張校捷編著
本章字?jǐn)?shù)： 399字
更新時(shí)間： 2022-05-06 17:08:36

3.1.2 多臂賭博機(jī)（Multi-armed Bandit）

如同2.2節(jié)中介紹的一樣，多臂賭博機(jī)是這樣一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境。在這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境中有N個(gè)搖桿，對(duì)應(yīng)智能體的決策過(guò)程是選擇這N個(gè)搖桿中的一個(gè)，這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境會(huì)根據(jù)搖桿預(yù)設(shè)的期望和方差（每個(gè)搖桿對(duì)應(yīng)一個(gè)具體的期望和方差，對(duì)于智能體來(lái)說(shuō)，這兩個(gè)參數(shù)是未知的），從服從對(duì)應(yīng)期望和方差的正態(tài)分布中采樣，得到一個(gè)具體的值返回作為智能體獲得的獎(jiǎng)勵(lì)。對(duì)于智能體來(lái)說(shuō)，對(duì)應(yīng)的狀態(tài)是選擇的搖桿，改變狀態(tài)即為改變選擇的搖桿，智能體對(duì)應(yīng)的動(dòng)作即為選擇一個(gè)新的搖桿。

多臂賭博機(jī)這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境的意義在于，每次返回的獎(jiǎng)勵(lì)值都是隨機(jī)的值。因此，有可能智能體在用貪心策略做決策選擇一個(gè)新的搖桿時(shí)會(huì)碰到期望比較低，但是碰巧在上一步（或者上幾步）生成的獎(jiǎng)勵(lì)比較大的狀態(tài)，這時(shí)智能體就可能被困在這個(gè)狀態(tài)上，從而無(wú)法獲取更大的獎(jiǎng)勵(lì)。這個(gè)強(qiáng)化學(xué)習(xí)環(huán)境和對(duì)應(yīng)的算法是一個(gè)很好地闡述強(qiáng)化學(xué)習(xí)算法的探索和利用這兩個(gè)對(duì)立方面的例子。

官术网_书友最值得收藏!

深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐：基于PyTorch的實(shí)現(xiàn)

3.1.2 多臂賭博機(jī)（Multi-armed Bandit）