- AI自動(dòng)化測試:技術(shù)原理、平臺搭建與工程實(shí)踐
- 騰訊TuringLab團(tuán)隊(duì)
- 494字
- 2020-08-13 13:47:07
4.1 什么是模仿學(xué)習(xí)
游戲AI是游戲自動(dòng)化測試的重要組成部分,可以通過硬編碼、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的方式實(shí)現(xiàn)。其中,硬編碼是根據(jù)玩家玩游戲總結(jié)的規(guī)則編寫的游戲AI策略,優(yōu)點(diǎn)是可以根據(jù)游戲目標(biāo)定制游戲AI策略,便于添加策略;缺點(diǎn)是要求研究人員對游戲有較深入的認(rèn)知,且不同游戲的AI策略變化較大,很難實(shí)現(xiàn)泛化。強(qiáng)化學(xué)習(xí)則是通過與環(huán)境進(jìn)行交互,記錄狀態(tài)、執(zhí)行的動(dòng)作以及對應(yīng)的獎(jiǎng)勵(lì),將累積獎(jiǎng)勵(lì)期望最大化來優(yōu)化模型參數(shù),這種方法通過多次與環(huán)境交互后能得到較好的AI效果,但是會(huì)耗費(fèi)大量的時(shí)間,同時(shí)非常依賴人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。模仿學(xué)習(xí)則需要玩家錄制玩游戲的樣本,記錄不同狀態(tài)對應(yīng)的動(dòng)作,隨后從這些樣本中學(xué)習(xí)特定的游戲策略。與強(qiáng)化學(xué)習(xí)相比,模仿學(xué)習(xí)不需要人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),其中的行為克隆算法不需要與游戲環(huán)境進(jìn)行交互,能在短時(shí)間內(nèi)完成游戲AI的訓(xùn)練。
模仿學(xué)習(xí)也稱為示范學(xué)習(xí)和學(xué)徒學(xué)習(xí),主要思想是通過專家演示學(xué)會(huì)如何完成一個(gè)任務(wù)。與強(qiáng)化學(xué)習(xí)相比,模仿學(xué)習(xí)可以不用人工定義獎(jiǎng)勵(lì)函數(shù),訓(xùn)練速度更快。
4.2節(jié)將詳細(xì)介紹兩種模仿學(xué)習(xí)算法(行為克隆和逆強(qiáng)化學(xué)習(xí)),并分析每種算法適合的應(yīng)用場景,讀者可以根據(jù)自己的需求選擇對應(yīng)的模仿學(xué)習(xí)算法。
- Python數(shù)據(jù)可視化:基于Bokeh的可視化繪圖
- Rust實(shí)戰(zhàn)
- CentOS 7 Server Deployment Cookbook
- 三維圖形化C++趣味編程
- INSTANT Weka How-to
- Building a Recommendation Engine with Scala
- Unity 5.x By Example
- Mastering JavaScript Design Patterns(Second Edition)
- Mastering Python Design Patterns
- SQL Server 2008 R2數(shù)據(jù)庫技術(shù)及應(yīng)用(第3版)
- 超好玩的Scratch 3.5少兒編程
- C語言程序設(shè)計(jì)
- Oracle Database XE 11gR2 Jump Start Guide
- Python編程基礎(chǔ)教程
- Dart:Scalable Application Development