官术网_书友最值得收藏!

1.5 強化學習的優缺點

前文中介紹了強化學習和深度強化學習的一些基本概念。作為一種人工智能算法,強化學習無疑是一條很有希望通向通用人工智能的道路。可以看到,訓練強化學習的過程中不需要任何訓練數據,只需要有一定的強化學習環境,能夠讓智能體對環境進行探索,智能體就能通過算法找到一系列最優的策略,或者到達一系列最優的價值點,來盡可能獲取最大的獎勵。這個和通用人工智能所需要解決的問題很類似,如果能找到一個通用的智能體來完成正常人類的學習過程,那么強化學習算法必然能夠稱為通用人工智能算法。雖然看起來很有希望,但是強化學習算法在成為通用人工智能算法的路上仍然困難重重。

首先就是環境的問題。前面我們已經看到,強化學習需要有一定的環境,那么如何構建一個合理的環境就是一個首要的任務。這里所說的構建環境包含一個合理的能夠跟智能體互動的環境,以及構造合理的獎勵值。其中,第一點保證了智能體能夠合理地在這個環境中探索,而不會在環境中某一個地方因為某種原因被停止(比如環境有個障礙智能體撞上后無法脫離。第二點所說的合理的獎勵值則保證智能體能夠做出正常的行為(比如獎勵值太小導致智能體傾向于保持原來的狀態)。這些都是需要考慮的重要因素。

其次就是深度強化學習和深度學習相比,往往需要更大的數據量和訓練次數才能收斂。這一點對于深度強化學習的應用造成了不利的影響,特別是策略梯度算法,往往需要在環境中使用策略生成很多數據,在這種情況下往往會導致算法的采樣效率低下。

主站蜘蛛池模板: 报价| 宜良县| 右玉县| 五莲县| 左权县| 长丰县| 汝州市| 景宁| 蓬安县| 淮北市| 千阳县| 井陉县| 喀喇沁旗| 桃源县| 澄城县| 张家界市| 古丈县| 双峰县| 射洪县| 三原县| 津南区| 江达县| 葫芦岛市| 中阳县| 多伦县| 南郑县| 百色市| 睢宁县| 徐闻县| 都江堰市| 辰溪县| 南部县| 赤城县| 南城县| 顺昌县| 海盐县| 武义县| 南城县| 交城县| 石楼县| 陈巴尔虎旗|