jdb电子夺宝

本章介紹了模仿學習的相關知識。針對游戲自動化測試，筆者介紹了一種一小時完成訓練的模仿學習算法，該算法是基于純圖像訓練，無須游戲內部接口，并能在CPU下實時運行。另外，筆者在嘗試模仿學習的過程中遇到不少困難，這里給大家總結一下訓練過程中可以采用的技巧。

1）人工錄制游戲的時候預先設定好規則。比如槍戰類游戲按照固定路線跑圖、飛車和酷跑類游戲中避免多余的動作，通過這些手段能減小網絡訓練的難度，加快收斂速度。

2）網絡結構很影響模型效果，就目前的經驗而言，輕量化的殘差網絡在游戲AI的訓練上能取得不錯的效果。

3）采用LSTM架構去提取游戲的時序特征，輸入可以為訓練完畢的輕量化殘差網絡從多幀圖像提取的全連接特征，輸出為動作標簽。

4）需要考慮實際游戲運行過程中的動作延遲。在訓練模型時，需要將動作標簽前移到對應延遲時間的幀上面。

5）由于人工錄制游戲過程中，每一類動作對應的樣本數量差別較大，需要對樣本進行重新采樣，使每一類樣本數量超過一個閾值。閾值的設定比較依賴經驗，一般設置為20%。

6）增加重置機制。一旦AI進入錄制期間沒出現過的場景，卡在特定區域較長時間，則啟動重置。在飛車類游戲中，重置操作為點擊對應的重置按鈕，讓AI回到賽道的中心。在槍戰游戲中，重置操作為執行一套預先定義好的動作序列，以嘗試擺脫困境。

在kindle搜索B089Y7R3XM可直接購買閱讀

官术网_书友最值得收藏!