- 深度強化學習算法與實踐:基于PyTorch的實現
- 張校捷編著
- 616字
- 2022-05-06 17:08:30
1.5 強化學習的優缺點
前文中介紹了強化學習和深度強化學習的一些基本概念。作為一種人工智能算法,強化學習無疑是一條很有希望通向通用人工智能的道路。可以看到,訓練強化學習的過程中不需要任何訓練數據,只需要有一定的強化學習環境,能夠讓智能體對環境進行探索,智能體就能通過算法找到一系列最優的策略,或者到達一系列最優的價值點,來盡可能獲取最大的獎勵。這個和通用人工智能所需要解決的問題很類似,如果能找到一個通用的智能體來完成正常人類的學習過程,那么強化學習算法必然能夠稱為通用人工智能算法。雖然看起來很有希望,但是強化學習算法在成為通用人工智能算法的路上仍然困難重重。
首先就是環境的問題。前面我們已經看到,強化學習需要有一定的環境,那么如何構建一個合理的環境就是一個首要的任務。這里所說的構建環境包含一個合理的能夠跟智能體互動的環境,以及構造合理的獎勵值。其中,第一點保證了智能體能夠合理地在這個環境中探索,而不會在環境中某一個地方因為某種原因被停止(比如環境有個障礙智能體撞上后無法脫離。第二點所說的合理的獎勵值則保證智能體能夠做出正常的行為(比如獎勵值太小導致智能體傾向于保持原來的狀態)。這些都是需要考慮的重要因素。
其次就是深度強化學習和深度學習相比,往往需要更大的數據量和訓練次數才能收斂。這一點對于深度強化學習的應用造成了不利的影響,特別是策略梯度算法,往往需要在環境中使用策略生成很多數據,在這種情況下往往會導致算法的采樣效率低下。
推薦閱讀
- The Supervised Learning Workshop
- Beginning C++ Game Programming
- Vue.js前端開發基礎與項目實戰
- C/C++算法從菜鳥到達人
- 從程序員到架構師:大數據量、緩存、高并發、微服務、多團隊協同等核心場景實戰
- INSTANT MinGW Starter
- 面向STEM的Scratch創新課程
- 基于差分進化的優化方法及應用
- PhpStorm Cookbook
- Unreal Engine 4 Shaders and Effects Cookbook
- Apache Kafka Quick Start Guide
- INSTANT Yii 1.1 Application Development Starter
- MATLAB GUI純代碼編寫從入門到實戰
- 代碼閱讀
- Visual Basic程序設計(第三版)