- 深度強化學習算法與實踐:基于PyTorch的實現
- 張校捷編著
- 920字
- 2022-05-06 17:08:30
1.4 深度強化學習基本概念
既然深度強化學習是強化學習的一種,很多強化學習的概念都能套用在深度強化學習上。與此同時,某些概念是深度強化學習特有的,比如神經網絡的概念。深度強化學習引入了神經網絡來描述強化學習中的一些對象,比如策略函數和值函數。因此對應的名詞也同樣發生了改變。由于足夠深度的神經網絡能夠擬合任意函數,因此策略函數和值函數也可以被神經網絡所擬合。對應的模型就被稱為策略網絡(Policy Network)和價值網絡(Value Network)。同時,由于使用了深度學習模型,深度學習常用的一些優化算法,比如梯度隨機下降(Stochastic Gradient Descent, SGD)算法也適用于這些網絡。特別是策略網絡,由于網絡最終輸出的是智能體采取不同策略的概率,最后算法需要達到的目的是通過梯度優化,讓最優的策略輸出概率盡可能大,因此對應的算法被稱為策略梯度(Policy Gradient)。
在深度學習中,根據模型擬合的數據類型可以把模型分為分類(Categorical)模型和回歸(Regression)模型兩種。同樣,深度強化學習的模型根據對應的輸出也可以分為離散的和連續的兩種。對應的策略網絡和價值網絡的輸出也有離散的和連續的兩種,我們需要根據實際問題來動態選擇網絡的輸出層是離散的還是連續的。典型的離散的強化學習模型可以應用的環境包括經典的車桿(Cart-Pole)環境,對應的控制是離散的左右方向,通過制定每一時刻車的運動方向來穩定車上的桿子。典型的連續強化學習模型應用的環境包括機械臂的控制等,對應的機械臂的參數能夠動態地在一定范圍內變化,這時就需要深度學習模型能夠處理連續的值。
除了以上概念,深度強化學習和傳統強化學習最大的區別還是在于各種深度學習模型的引入。由于結合了深度學習,強化學習已經不但可以處理一些簡單的輸入數值,更重要的是,強化學習能夠處理復雜的數據,比如圖像和文本等。通過結合對應的深度學習模型(比如深度卷積網絡),深度強化學習能夠從復雜的輸入(這些輸入對應智能體的狀態)提取對應狀態的特征,并且根據狀態的特征來做出合理的決策(策略網絡),或是估計當前狀態的價值(價值網絡)。另外一點就是,由于深度學習使用的模型具有較大的參數,可以通過這些模型來更加精準地擬合對應的函數,這樣又大大提高了算法的效率。通過在強化學習中引入深度學習,可以說同時擴展了強化學習算法的應用邊界和效率。