电子教鞭怎么装到mt4上

書名： AI自動(dòng)化測試：技術(shù)原理、平臺搭建與工程實(shí)踐
作者名：騰訊TuringLab團(tuán)隊(duì)
本章字?jǐn)?shù)： 494字
更新時(shí)間： 2020-08-13 13:47:07

4.1　什么是模仿學(xué)習(xí)

游戲AI是游戲自動(dòng)化測試的重要組成部分，可以通過硬編碼、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的方式實(shí)現(xiàn)。其中，硬編碼是根據(jù)玩家玩游戲總結(jié)的規(guī)則編寫的游戲AI策略，優(yōu)點(diǎn)是可以根據(jù)游戲目標(biāo)定制游戲AI策略，便于添加策略；缺點(diǎn)是要求研究人員對游戲有較深入的認(rèn)知，且不同游戲的AI策略變化較大，很難實(shí)現(xiàn)泛化。強(qiáng)化學(xué)習(xí)則是通過與環(huán)境進(jìn)行交互，記錄狀態(tài)、執(zhí)行的動(dòng)作以及對應(yīng)的獎(jiǎng)勵(lì)，將累積獎(jiǎng)勵(lì)期望最大化來優(yōu)化模型參數(shù)，這種方法通過多次與環(huán)境交互后能得到較好的AI效果，但是會(huì)耗費(fèi)大量的時(shí)間，同時(shí)非常依賴人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。模仿學(xué)習(xí)則需要玩家錄制玩游戲的樣本，記錄不同狀態(tài)對應(yīng)的動(dòng)作，隨后從這些樣本中學(xué)習(xí)特定的游戲策略。與強(qiáng)化學(xué)習(xí)相比，模仿學(xué)習(xí)不需要人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，其中的行為克隆算法不需要與游戲環(huán)境進(jìn)行交互，能在短時(shí)間內(nèi)完成游戲AI的訓(xùn)練。

模仿學(xué)習(xí)也稱為示范學(xué)習(xí)和學(xué)徒學(xué)習(xí)，主要思想是通過專家演示學(xué)會(huì)如何完成一個(gè)任務(wù)。與強(qiáng)化學(xué)習(xí)相比，模仿學(xué)習(xí)可以不用人工定義獎(jiǎng)勵(lì)函數(shù)，訓(xùn)練速度更快。

4.2節(jié)將詳細(xì)介紹兩種模仿學(xué)習(xí)算法（行為克隆和逆強(qiáng)化學(xué)習(xí)），并分析每種算法適合的應(yīng)用場景，讀者可以根據(jù)自己的需求選擇對應(yīng)的模仿學(xué)習(xí)算法。

官术网_书友最值得收藏!

AI自動(dòng)化測試：技術(shù)原理、平臺搭建與工程實(shí)踐

4.1 什么是模仿學(xué)習(xí)

4.1　什么是模仿學(xué)習(xí)