手机游戏平台

書名：深度強化學習算法與實踐：基于PyTorch的實現
作者名：張校捷編著
本章字數： 616字
更新時間： 2022-05-06 17:08:30

1.5 強化學習的優缺點

前文中介紹了強化學習和深度強化學習的一些基本概念。作為一種人工智能算法，強化學習無疑是一條很有希望通向通用人工智能的道路。可以看到，訓練強化學習的過程中不需要任何訓練數據，只需要有一定的強化學習環境，能夠讓智能體對環境進行探索，智能體就能通過算法找到一系列最優的策略，或者到達一系列最優的價值點，來盡可能獲取最大的獎勵。這個和通用人工智能所需要解決的問題很類似，如果能找到一個通用的智能體來完成正常人類的學習過程，那么強化學習算法必然能夠稱為通用人工智能算法。雖然看起來很有希望，但是強化學習算法在成為通用人工智能算法的路上仍然困難重重。

首先就是環境的問題。前面我們已經看到，強化學習需要有一定的環境，那么如何構建一個合理的環境就是一個首要的任務。這里所說的構建環境包含一個合理的能夠跟智能體互動的環境，以及構造合理的獎勵值。其中，第一點保證了智能體能夠合理地在這個環境中探索，而不會在環境中某一個地方因為某種原因被停止（比如環境有個障礙智能體撞上后無法脫離。第二點所說的合理的獎勵值則保證智能體能夠做出正常的行為（比如獎勵值太小導致智能體傾向于保持原來的狀態）。這些都是需要考慮的重要因素。

其次就是深度強化學習和深度學習相比，往往需要更大的數據量和訓練次數才能收斂。這一點對于深度強化學習的應用造成了不利的影響，特別是策略梯度算法，往往需要在環境中使用策略生成很多數據，在這種情況下往往會導致算法的采樣效率低下。

官术网_书友最值得收藏!

深度強化學習算法與實踐：基于PyTorch的實現

1.5 強化學習的優缺點