- 基于神經網絡的監督和半監督學習方法與遙感圖像智能解譯
- 韓敏編著
- 2654字
- 2021-04-09 17:33:20
2.4 極限學習機
極限學習機(Extreme Learning Machines,ELM)是一種新型神經網絡,它源于多層前饋神經網絡,采用單隱含層前饋神經網絡結構(Single-hidden Layer Feedforward Neural Networks,SLFN)。與常規前饋神經網絡訓練方法的區別在于其隱含層的構建過程,在極限學習機中,輸入權值、隱含層節點偏置(Sigmoid激活函數)和中心寬度(RBF激活函數)都是隨機產生的,并且一旦確定就不再改變,唯一需要確定的是網絡的輸出權值。與傳統的多層前饋神經網絡訓練算法相比,極限學習機訓練過程簡單、快捷,因而得到迅速發展和廣泛應用。在本書1.3.2小節對極限學習機的起源發展與研究現狀做了簡要介紹,為使讀者更好地理解極限學習機算法,本節將詳細介紹極限學習機的運行機制,并對其存在的問題進行說明。
2.4.1 極限學習機的運行機制[29]
作為一種新型的單隱含層前饋神經網絡學習算法,極限學習機得以迅速發展并被廣泛使用的原因在于其簡單的結構、快速的訓練速度以及較高的泛化性能。極限學習機的結構如圖2.6所示。
通過本書1.1.1小節對監督學習的概述可知,學習器根據有標記的樣本集(即訓練樣本集)進行訓練得到模型用于預測無標記的樣本,而評價學習器性能的優劣通常使用代價函數。極限學習機監督學習算法的代價函數E可定義為
圖2.6 極限學習機結構示意圖
式中:N為有標記訓練樣本的數目;為隱層節點的數目,xj=[xj1,…,xjn]T為標記輸入樣本的輸入向量;n為樣本向量的維數;tj為樣本向量xj的類別標記向量,tj=[tj1,…,tjn]T;wi為連接輸入節點與第i個隱含層節點的輸入權值向量,wi=[wi1,…,win]T;bi為第i個隱含層節點的偏置值;g(·)為隱含層節點的激活函數;βi為連接第i個隱含層節點與網絡輸出節點的輸出權值向量,βi=[βi1 ,βi2 ,…,βic]T;c為樣本中類別的數目,規定其值等于網絡的輸出節點數目。
最小化單隱含層前饋神經網絡的代價函數等價于尋找滿足式(2.47)的特殊解,即
式中:H為神經網絡的隱含層輸出矩陣;β為輸出權值矩陣;T為訓練樣本集的類別標記矩陣。具體定義為
嚴格證明了當神經網絡中隱含層節點的激活函數無限可微時,網絡的輸入權值和偏置值可隨機賦值而不必采用常規的梯度下降學習算法進行迭代調整,并且單隱含層神經網絡的監督學習過程等價于求取線性系統Hβ=T的范數最小的最小二乘解(Minimum Norm Least-Squares Solution)。由此可得到β的一個特殊解,即
式中:H?為矩陣H的Moore Penrose廣義逆[30]。在rank(H)=的條件下可由正交投影方法求得,即
當HTH為奇異矩陣時,可降低網絡隱含層節點的數目N~使其變為非奇異矩陣,從而實現對其求逆。綜前所述,極限學習機的監督學習算法可概括為以下3步:
1)對網絡的輸入權值wi和偏置值bi進行隨機賦值,其中i=1,…,N~。
2)按照式(2.48)計算隱含層輸出矩陣H。
3)按照式 (2.50)和式 (2.51)計算隱含層輸出權值矩陣。
與傳統的梯度下降算法相比,極限學習機算法沒有迭代過程,因此具有訓練速度快的特點,這也是極限學習機被廣泛研究與應用的因素之一。另外,對于前饋神經網絡而言,訓練誤差相同時,權值的范數越小,網絡的泛化能力越強[31]。由式(2.50)計算得到的輸出權值是范數最小的最小二乘解[29],因此極限學習機算法具有較強的泛化能力。
2.4.2 極限學習機算法存在的問題
通過2.4.1小節對極限學習機運行機制的介紹可知,極限學習機算法具有泛化能力強、訓練速度快等特點,但是在模型自身的穩定性和訓練速度方面,極限學習機仍然存在著進一步提升的空間。因此,本小節將對影響極限學習機穩定性和訓練速度這兩方面的關鍵因素進行分析,并在此基礎上介紹極限學習機的改進方法。
(1)影響極限學習機穩定性的關鍵因素
極限學習機的訓練過程等價于通過最小二乘法對線性系統Hβ=T進行求解[32],即
式中:β為網絡的輸出權值矩陣;為β的一個特殊解;H?為隱含層輸出矩陣H的偽逆;T為目標矩陣。
在求解時,極限學習機通過奇異值分解(Singular Value Decomposition,SVD)計算隱含層輸出矩陣H的 Moore-Penrose廣義逆H?。隱含層輸出矩陣H的奇異值分解可以表示為
式中:U=(u1,…,);V=(v1,…,
);∑=diag(σ1,…,
);σi∈∑,i=1,…,
表示H的
個奇異值,且按大小順序排列,即
0。設嚴格為正的奇異值數量為r,即隱含層輸出矩陣H的秩為r,則有σr>σr+1=…=
=0。
由式(2.53)得到隱含層輸出矩陣H的奇異值后,可按照式(2.54)計算H的Moore-Penrose廣義逆H?,即
將式(2.54)代入式(2.52)即可得到網絡的輸出權值矩陣,即
在實際應用中,由于目標矩陣T常受到噪聲的干擾,為便于分析,令e為目標矩陣中的擾動分量,=T+e為實際應用中含噪聲的目標向量,此時,極限學習機的輸出權值矩陣
可表示為
若隱含層輸出矩陣H具有不適定性,即存在某些數值極小的奇異值。在式(2.56)中,若分母中的σi極小,相當于增加了擾動的幅值,使得模型極易受到擾動分量e的影響,同時輸出權值矩陣的數值也將變得非常大,從而極大地影響整個模型的輸出。因此,隱含層輸出矩陣H的不適定性是影響極限學習機穩定性的關鍵因素。
(2)影響極限學習機訓練速度的關鍵因素
極限學習機訓練過程的主要時間消耗在Moore-Penrose廣義逆H?的求解。如式(2.54)~式(2.56)所示,Moore-Penrose廣義逆H?的求解主要包含矩陣H的奇異值分解以及后續簡單的數學運算。隱含層輸出矩陣H(H∈)奇異值分解的計算復雜度為O(4N
+8
)[33](N為訓練樣本的個數,
為網絡的隱含層節點數),當網絡隱含層節點數
增加時,奇異值分解的計算復雜度將按冪指數增長。因此,較大運算量的奇異值分解操作是影響極限學習機訓練速度的關鍵因素。有文獻指出,可以通過剪枝方法來降低網絡的結構復雜度 (隱含層的節點數),但這類方法所使用的剪枝技術會使極限學習機喪失其網絡結構獨立于訓練樣本的特性,影響算法的精度。
綜上所述可知,如何處理網絡隱含層輸出矩陣的不適定性和降低奇異值分解的計算復雜度是優化極限學習機性能的兩個重要方向。
有研究表明,正則化方法能夠有效地解決隱含層輸出矩陣的不適定問題[34,35],其原因在于正則化方法使用一組與原不適定問題相“鄰近”的適定問題的解去逼近原問題的解。其中最具代表性的有截斷奇異值分解(Truncated Singular Value Decomposition,TSVD)和Tikhonov正則化(Tikhonov Regularization)兩種方法。事實上,截斷奇異值分解方法能夠產生與Tikhonov正則化方法相似的結果[36]。兩者的區別在于,截斷奇異值分解方法主要關注對應矩陣中最大的k個奇異值,以此來避免小奇異值做分母時對運算結果可能產生的不利影響。基于截斷奇異值分解方法的H?計算公式為
式中:κ為截斷奇異值分解方法的截斷系數,且。
針對降低奇異值分解計算復雜度的問題,截斷奇異值分解方法則失去優勢。雖然截斷奇異值分解方法能夠提供比奇異值分解更穩定的解,但該方法仍然是以奇異值分解的結果為基礎的,即這兩種方法在計算復雜度上沒有多大的區別[37]。