官术网_书友最值得收藏!

4.1 什么是模仿學(xué)習(xí)

游戲AI是游戲自動(dòng)化測試的重要組成部分,可以通過硬編碼、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的方式實(shí)現(xiàn)。其中,硬編碼是根據(jù)玩家玩游戲總結(jié)的規(guī)則編寫的游戲AI策略,優(yōu)點(diǎn)是可以根據(jù)游戲目標(biāo)定制游戲AI策略,便于添加策略;缺點(diǎn)是要求研究人員對游戲有較深入的認(rèn)知,且不同游戲的AI策略變化較大,很難實(shí)現(xiàn)泛化。強(qiáng)化學(xué)習(xí)則是通過與環(huán)境進(jìn)行交互,記錄狀態(tài)、執(zhí)行的動(dòng)作以及對應(yīng)的獎(jiǎng)勵(lì),將累積獎(jiǎng)勵(lì)期望最大化來優(yōu)化模型參數(shù),這種方法通過多次與環(huán)境交互后能得到較好的AI效果,但是會(huì)耗費(fèi)大量的時(shí)間,同時(shí)非常依賴人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。模仿學(xué)習(xí)則需要玩家錄制玩游戲的樣本,記錄不同狀態(tài)對應(yīng)的動(dòng)作,隨后從這些樣本中學(xué)習(xí)特定的游戲策略。與強(qiáng)化學(xué)習(xí)相比,模仿學(xué)習(xí)不需要人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),其中的行為克隆算法不需要與游戲環(huán)境進(jìn)行交互,能在短時(shí)間內(nèi)完成游戲AI的訓(xùn)練。

模仿學(xué)習(xí)也稱為示范學(xué)習(xí)和學(xué)徒學(xué)習(xí),主要思想是通過專家演示學(xué)會(huì)如何完成一個(gè)任務(wù)。與強(qiáng)化學(xué)習(xí)相比,模仿學(xué)習(xí)可以不用人工定義獎(jiǎng)勵(lì)函數(shù),訓(xùn)練速度更快。

4.2節(jié)將詳細(xì)介紹兩種模仿學(xué)習(xí)算法(行為克隆和逆強(qiáng)化學(xué)習(xí)),并分析每種算法適合的應(yīng)用場景,讀者可以根據(jù)自己的需求選擇對應(yīng)的模仿學(xué)習(xí)算法。

主站蜘蛛池模板: 贵定县| 周口市| 类乌齐县| 达州市| 丁青县| 苗栗县| 招远市| 大悟县| 赫章县| 武冈市| 陵川县| 东兰县| 垫江县| 新平| 潮州市| 鸡西市| 错那县| 德州市| 衡水市| 潼南县| 彰化市| 云龙县| 南靖县| 绿春县| 开化县| 独山县| 理塘县| 崇文区| 荆州市| 临沧市| 河津市| 桐乡市| 呈贡县| 奎屯市| 巴彦淖尔市| 余庆县| 栖霞市| 安阳市| 康定县| 桂林市| 孟州市|