官术网_书友最值得收藏!

1.3 基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類

經(jīng)過幾十年的發(fā)展,遙感領(lǐng)域已經(jīng)成為當(dāng)今最活躍的科技領(lǐng)域之一,在國民經(jīng)濟(jì)的各個方面有著廣泛而深入的應(yīng)用。隨著人工神經(jīng)網(wǎng)絡(luò)理論的快速發(fā)展與成熟,神經(jīng)網(wǎng)絡(luò)也逐漸成為了遙感圖像分類中的有效手段[79]。與傳統(tǒng)的數(shù)理統(tǒng)計分類方法相比,神經(jīng)網(wǎng)絡(luò)遙感圖像分類最大的優(yōu)勢在于對訓(xùn)練樣本的分布沒有嚴(yán)格的限制,并能更容易地融入更多的其他輔助分類數(shù)據(jù)。本節(jié)將首先介紹遙感圖像分類技術(shù),并在此基礎(chǔ)上介紹基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類,最后將對幾種常見的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行簡要介紹。

1.3.1 遙感圖像分類技術(shù)概述

遙感(Remote Sensing,RS)即遙遠(yuǎn)感知,是在不直接接觸的情況下,對目標(biāo)或自然現(xiàn)象遠(yuǎn)距離探測和感知的一種技術(shù)[80]。遙感技術(shù)從遠(yuǎn)距離采用高空鳥瞰的形式進(jìn)行探測,包括多譜段、多時相和多角度的遙感圖像以及多次增強(qiáng)的遙感信息,能提供綜合系統(tǒng)性、瞬時或同步性的連續(xù)區(qū)域性同步信息,對地球的資源與環(huán)境進(jìn)行探測和監(jiān)控。目前,遙感技術(shù)發(fā)展迅速,遙感圖像分辨率已能夠達(dá)到dm量級,這都使得遙感技術(shù)在土地遙感監(jiān)測、地理信息提取時能夠準(zhǔn)確、快速地形成成果,廣泛應(yīng)用到國民經(jīng)濟(jì)的各個領(lǐng)域,對于推動社會進(jìn)步、經(jīng)濟(jì)發(fā)展、環(huán)境保護(hù)、資源開發(fā)以及國防建設(shè)起了重大的作用[81,82]。例如,由遙感觀測到的全球氣候變化和厄爾尼諾現(xiàn)象,以及全球荒漠化、海洋冰山漂流等動態(tài)現(xiàn)象已經(jīng)引起了人們的廣泛關(guān)注和重視;在海洋漁業(yè)、海上交通等研究中,遙感技術(shù)已經(jīng)成為重要工具;礦產(chǎn)資源、土地資源、森林資源等調(diào)查都缺少不了遙感手段的應(yīng)用。此外,在災(zāi)害監(jiān)測、預(yù)報和評估中,遙感技術(shù)都能起到至關(guān)重要的作用[83]

目前,遙感數(shù)據(jù)的常用信息源有NOAA、MSS、TM、SPOT等航天遙感數(shù)據(jù)及部分不同尺度的航空照片。不同類型的遙感數(shù)據(jù)具有不同的信息提取精度,從而適應(yīng)于不同的研究尺度。NOAA氣象衛(wèi)星地面分辨率低,最小為1km。可用于全球及洲際尺度的土地利用/土地覆蓋的遙感變化。應(yīng)用NOAA/AVHRR數(shù)據(jù)進(jìn)行此范圍的植被變化和土地研究始于1981年。最早應(yīng)用多時相植被指數(shù)(NDVI)數(shù)據(jù)進(jìn)行洲際尺度的土地覆蓋研究者是Tucker和Townshed。通過利用NOAA圖像開發(fā)的1km土地覆蓋數(shù)據(jù)庫可進(jìn)行地表覆蓋對中尺度大氣環(huán)流和區(qū)域天氣影響檢驗(yàn)、分析氣候干濕變化及季節(jié)降水、溫度和蒸發(fā)對地表植被及其動態(tài)變化的依賴性和敏感性。

遙感圖像智能分類是通過運(yùn)用模式識別理論,利用計算機(jī)技術(shù)將遙感圖像分成若干地物類別的方法,主要是通過利用各類地物的光譜特征來選擇特征參數(shù),再將特征空間劃分為不同的特征子空間,然后將圖像內(nèi)各個像元按照某種規(guī)則或算法劃分到各個子空間中去,實(shí)現(xiàn)對遙感圖像的分類[84]。最常用的方法是基于地物光譜特征數(shù)據(jù)的統(tǒng)計模式識別法。從而統(tǒng)計模式識別的關(guān)鍵是提取待識別模式的一組統(tǒng)計特征值,然后按照一定的算法作出決策,從而實(shí)現(xiàn)對數(shù)字遙感圖像的分類。

遙感圖像分類主要是依據(jù)地物的光譜特征。任何地物都有它獨(dú)特的電磁波特性,但是由于光照條件的不同、大氣層的干擾和其他環(huán)境因素的影響,同一地物的電磁波特征值并不是固定不變的,這些特征值有一定的離散分布性[85]。不過屬于同一類型的地物,總是具有相似或相近的特征值,其特征值的離散分布符合概率統(tǒng)計規(guī)律,即以某一特征值為中心,有規(guī)律地分布于多維空間。所以可以運(yùn)用概率統(tǒng)計理論,通過計算機(jī)對大量遙感圖像的計算分析、歸納對比,可以識別出各類物體的類別及分布。

要識別出光譜集合中的數(shù)據(jù)以及對應(yīng)的地表植被類型,可以應(yīng)用數(shù)學(xué)模式識別方法或模式分類以及它們派生的機(jī)器學(xué)習(xí)技術(shù)來實(shí)現(xiàn),如人工神經(jīng)網(wǎng)絡(luò)等。模式是像素本身,或者嚴(yán)格來說是像素矢量。該矢量是包含有遙感圖像各個波段亮度值的集合,以列的形式排列分類就是利用現(xiàn)有的光譜數(shù)據(jù)把像素標(biāo)記為特定的光譜信息類。

遙感圖像分類是遙感圖像信息處理中最基本的問題之一,遙感技術(shù)很多方面的應(yīng)用都涉及遙感圖像分類問題的研究,所以說,遙感圖像分類方法性能的提高直接制約著遙感技術(shù)的應(yīng)用發(fā)展。無論是專題信息提取、變化檢測,還是專題地圖制作、遙感數(shù)據(jù)庫的建立等都離不開遙感圖像分類技術(shù)。快速、高精度的遙感圖像分類算法是實(shí)現(xiàn)各種實(shí)際應(yīng)用的前提。許多研究者都在不斷試用、改進(jìn)以及探索新的方法[86,87],不斷提高遙感圖像自動分類算法的精度和速度。

1.3.2 基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類概述

在遙感圖像地物識別的研究中,最初的目視解譯已暴露出許多不足,如速度慢、重復(fù)性差、解譯結(jié)果受人為經(jīng)驗(yàn)及圖像的質(zhì)量等因素的影響等,而傳統(tǒng)的計算機(jī)識別雖然克服了目視解譯的一些缺點(diǎn),但卻沒有繼承目視解譯最關(guān)鍵的優(yōu)點(diǎn),未能充分發(fā)揮專家的知識和經(jīng)驗(yàn)。

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN),簡稱為神經(jīng)網(wǎng)絡(luò)(NN),是由大量的信息處理單元(也稱神經(jīng)元)相互連接的復(fù)雜網(wǎng)絡(luò),用來模擬人腦神經(jīng)系統(tǒng)的功能和結(jié)構(gòu),它是一種簡化的人腦數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)研究開始于20世紀(jì)40年代對與神經(jīng)網(wǎng)絡(luò)有關(guān)的神經(jīng)科學(xué)的研究。

人工神經(jīng)網(wǎng)絡(luò)具有的非線性適應(yīng)性信息處理能力,克服了傳統(tǒng)人工智能方法對于直覺,如模式識別、語音識別、非結(jié)構(gòu)化信息處理方面的缺陷,使其在專家系統(tǒng)、模式識別、智能控制、組合優(yōu)化、預(yù)測等許多領(lǐng)域得到了廣泛的應(yīng)用,特別地在遙感圖像分類中取得了較好的結(jié)果[88]。人工神經(jīng)網(wǎng)絡(luò)與其他傳統(tǒng)方法相結(jié)合,將推動人工智能和信息處理技術(shù)的不斷發(fā)展。近幾年來,人工神經(jīng)網(wǎng)絡(luò)正向模擬人類認(rèn)知思維過程的道路上更加深入發(fā)展,與模糊系統(tǒng)、遺傳算法、進(jìn)化機(jī)制等相結(jié)合形成計算智能,成為人工智能的一個重要研究方向,并將在實(shí)際應(yīng)用中得到應(yīng)用和發(fā)展。另外,將信息幾何應(yīng)用到人工神經(jīng)網(wǎng)絡(luò)的研究,為人工神經(jīng)網(wǎng)絡(luò)的理論研究開辟了新途徑。

人工神經(jīng)網(wǎng)絡(luò)分類方法是近年來研究較多的一種分類方法,它不需要任何有關(guān)統(tǒng)計分布的先驗(yàn)知識和預(yù)定義分類中的各數(shù)據(jù)源的先驗(yàn)權(quán)值,能夠處理不規(guī)則的復(fù)雜數(shù)據(jù),并且容易與輔助信息相結(jié)合,獲得更好的分類結(jié)果。與傳統(tǒng)的分類方法相比,神經(jīng)網(wǎng)絡(luò)分類方法通常可以獲得更高精度的分類結(jié)果,尤其應(yīng)用在復(fù)雜類型的土地覆蓋分類上,更顯示了其優(yōu)越性。實(shí)踐證明,在數(shù)據(jù)處理的速度和地物分類的精度上,神經(jīng)網(wǎng)絡(luò)分類方法優(yōu)于傳統(tǒng)的最大似然方法,當(dāng)數(shù)據(jù)資料偏離假設(shè)的高斯分布時,其優(yōu)越性表現(xiàn)得更突出。

人工神經(jīng)網(wǎng)絡(luò)遙感圖像分類是通過建立統(tǒng)一框架,實(shí)現(xiàn)對圖像的視覺識別和并行推理,是近年來發(fā)展起來的綜合數(shù)據(jù)分類方法之一。其目標(biāo)是利用人工神經(jīng)網(wǎng)絡(luò)技術(shù)的并行分布式知識處理手段,以遙感圖像為處理對象,建立基于ANN的遙感圖像分類專家系統(tǒng)。神經(jīng)網(wǎng)絡(luò)方法具有傳統(tǒng)數(shù)值計算方法所沒有的一些優(yōu)點(diǎn),其最大的優(yōu)點(diǎn)在于其極強(qiáng)的非線性映射能力。它具有下列優(yōu)勢:①計算過程大量并行、高度分布,這使其能高速處理大量數(shù)據(jù)和求解非常復(fù)雜的問題;②具有自學(xué)習(xí)、自適應(yīng)和自組織能力,它能利用已知類別遙感圖像樣本集的先驗(yàn)知識,自動提取識別規(guī)則;③能實(shí)現(xiàn)各種非線性映射和求解各種十分復(fù)雜和高度非線性的分類和模式識別問題。目前,人工神經(jīng)網(wǎng)絡(luò)技術(shù)在遙感圖像分類處理中的應(yīng)用主要有單一的BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)[84]、模糊神經(jīng)網(wǎng)絡(luò)[89]、多層感知器[90]、徑向基函數(shù)(RBF)網(wǎng)絡(luò)[79]、Kohonen自組織特征分類器[91]、Hybrid學(xué)習(xí)向量分層網(wǎng)絡(luò)[92]等多種分類器。

下面介紹幾種常見的神經(jīng)網(wǎng)絡(luò)模型。

(1)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)

1985年,Powell提出了徑向基函數(shù)(Radial Basis Function,RBF),簡單來說,徑向基函數(shù)是一個取值僅僅和到原點(diǎn)間距離有關(guān)的實(shí)值函數(shù),它的提出用于解決多變量差值問題,同時RBF理論為多層前向網(wǎng)絡(luò)的學(xué)習(xí)提供了一種新的方法。1988年,Broomhaed和Lowe首先將徑向基函數(shù)應(yīng)用于神經(jīng)網(wǎng)絡(luò)設(shè)計,構(gòu)成了徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)[93]。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)不僅具有良好的推廣能力,而且避免了像BP算法那樣繁瑣的計算,使學(xué)習(xí)能得以快速地實(shí)現(xiàn),近幾年被廣泛地應(yīng)用研究以解決各種問題。

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的設(shè)計被視為一個高維空間中曲線擬合(逼近)問題,在此觀點(diǎn)下,學(xué)習(xí)過程即為在特征空間中尋找一個能夠最佳擬合訓(xùn)練數(shù)據(jù)的曲面,泛化過程即為超曲面對測試數(shù)據(jù)進(jìn)行插值。最基本的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)是一種3層前向網(wǎng)絡(luò),這3層分別為輸入層、隱含層和輸出層,其結(jié)構(gòu)的合理性可由Cover定理[94]加以保證。其中輸入層由信號源節(jié)點(diǎn)構(gòu)成,起到和外界環(huán)境進(jìn)行連接的作用;隱含層僅有一層,其中隱藏節(jié)點(diǎn)提供徑向基函數(shù)將輸入向量擴(kuò)展至隱含層空間,節(jié)點(diǎn)個數(shù)視具體問題而定,該層的作用是從輸入空間到隱含層空間之間進(jìn)行非線性變換,由于高維空間中分類問題更可能是線性可分的,而且隱含層空間的維數(shù)越高,對輸入—輸出映射的逼近就越精確,因此隱含層空間通常都有較高的維數(shù),但隨之而來的問題便是具有較高的非線性的復(fù)雜程度。最后,第三層輸出層是一個線性映射,為輸入層的激活信號提供響應(yīng)。

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)隱含層單元的激活函數(shù)為徑向基函數(shù),通常為具有局部接受域,即僅當(dāng)輸入落在輸入空間中一個很小的指定區(qū)域中時,隱含層節(jié)點(diǎn)才做出有意義的非零響應(yīng)。其中最為常用的徑向基函數(shù)形式是高斯函數(shù)。

構(gòu)成徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的基本思想是:用徑向基函數(shù)作為隱含層單元的“基”,構(gòu)成隱含層空間。當(dāng)徑向基函數(shù)的中心點(diǎn)確定后,這種映射關(guān)系也就確定了。而隱含層空間與輸出層空間的映射是線性的,即網(wǎng)絡(luò)的輸出是隱含層節(jié)點(diǎn)的線性加權(quán)和。由此可見,從整體上看,網(wǎng)絡(luò)由輸入到輸出的映射是非線性的,而隱含層到輸出層的映射卻是線性的。

構(gòu)建徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的關(guān)鍵和難點(diǎn)就是隱含層的生成,這包括隱含層節(jié)點(diǎn)數(shù)目的確定、隱含層中心和寬度的確定。隱含層節(jié)點(diǎn)的數(shù)量影響著網(wǎng)絡(luò)的復(fù)雜性以及網(wǎng)絡(luò)的泛化能力。如果節(jié)點(diǎn)數(shù)量過少,網(wǎng)絡(luò)模型就會受到限制,從而降低網(wǎng)絡(luò)的泛化能力。另外,如果節(jié)點(diǎn)數(shù)量過多,也會使網(wǎng)絡(luò)的泛化能力降低。隱含層中心位置的選取是最為關(guān)鍵的,不恰當(dāng)?shù)闹行奈恢脮箯较蚧瘮?shù)神經(jīng)網(wǎng)絡(luò)無法正確反映出輸入樣本空間的實(shí)際劃分,也就是說,無法實(shí)現(xiàn)從非線性的輸入空間到線性的輸出空間的轉(zhuǎn)換。隱含層中心的寬度也是影響徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)分類能力的重要因素。寬度過大,類與類之間的界線變得模糊,分類精度不高;寬度過小,核函數(shù)覆蓋的區(qū)域就小,網(wǎng)絡(luò)的泛化能力就差。

由于學(xué)習(xí)收斂速度較快且能夠有效避免局部極小值問題,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)作為一種性能優(yōu)良的前向型網(wǎng)絡(luò)一直備受矚目,其應(yīng)用范圍也越來越廣泛。本書在第2章的2.2節(jié)將對徑向基函數(shù)進(jìn)行更詳細(xì)介紹,并在第3章介紹基于徑向基函數(shù)的集成監(jiān)督學(xué)習(xí)方法。

(2)支持向量機(jī)

支持向量機(jī)(Support Vector Machines,SVM)是一種通用的廣義前饋神經(jīng)網(wǎng)絡(luò)。支持向量機(jī)是有限樣本條件下解決機(jī)器學(xué)習(xí)問題的通用方法,既有嚴(yán)格的理論基礎(chǔ),又能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問題,其核心思想就是學(xué)習(xí)機(jī)器要與有限的訓(xùn)練樣本相適應(yīng)[95]。支持向量機(jī)是機(jī)器學(xué)習(xí)領(lǐng)域若干標(biāo)準(zhǔn)技術(shù)的集大成者,涉及最大間隔超平面、凸二次規(guī)劃、稀疏解、Mercer核以及松弛變量等多項技術(shù),在若干具有挑戰(zhàn)性的應(yīng)用中獲得了良好的性能,是一個令人矚目的發(fā)展方向。

統(tǒng)計學(xué)習(xí)理論中的VC維理論和結(jié)構(gòu)風(fēng)險最小化原則的提出都為支持向量機(jī)方法的產(chǎn)生打下了堅實(shí)的理論基礎(chǔ)。其核心內(nèi)容是由Vapnik及其領(lǐng)導(dǎo)的AT&T Bell實(shí)驗(yàn)室研究小組在1992—1995年間提出的,目前仍處在不斷發(fā)展階段。1992年,Boser、Guyon和Vapnik提出了最優(yōu)邊界分類器的概念[96],被認(rèn)為是支持向量機(jī)的最初原型。1993年,Cortes和Vapnik研究了非線性情況下的最優(yōu)邊界分類問題[97]。1995年,Vapnik首次完整地提出了基于統(tǒng)計學(xué)習(xí)理論的支持向量機(jī)方法。1997年,Vapnik、Gokowich和Smola提出了基于支持向量機(jī)方法的回歸估計方法(Support Vector Regression,SVR)和信號處理方法[98]

近幾年涌現(xiàn)出大量的理論研究成果,使支持向量機(jī)理論不斷得到完善和發(fā)展,更為其應(yīng)用研究奠定了堅實(shí)的基礎(chǔ)。主要的研究成果體現(xiàn)在以下5個方面。

1)泛化能力的估計。對泛化能力的估計是支持向量機(jī)理論研究的重要內(nèi)容之一,簡單、準(zhǔn)確和有效的估計方法是進(jìn)行模型選擇、參數(shù)優(yōu)化以及核函數(shù)優(yōu)化的基礎(chǔ)。一些學(xué)者針對泛化性能進(jìn)行了研究,提出了多種估計方法,它們包括留一法(LOO)、k-Fold交叉驗(yàn)證方法、“跨度(Span)”方法、Opper-Winther方法、Jaakkola-Haussler方法及Wahba-Lin方法等。

2)改進(jìn)支持向量機(jī)。為了擴(kuò)展支持向量機(jī)的應(yīng)用范圍或者克服它在某些方面的局限,通過改變其原始優(yōu)化問題中的函數(shù)項、變量或系數(shù),從而獲得在某些方面具有突出優(yōu)勢或者適用于特定問題的改進(jìn)支持向量機(jī)。例如,可調(diào)罰參數(shù)的C-SVM系列[95,99],用于分類和回歸問題的ν-SVM系列[100],將最小二乘線性系統(tǒng)引入到支持向量機(jī)后提出的LS-SVM[101]、One-Class SVM[102]、Lagrange支持向量機(jī)(LSVM)[103]、Proximal支持向量機(jī)(PSVM)[104]、簡化支持向量機(jī)(RSVM)[105]、光滑向量機(jī)(SSVM)等[106]

3)核函數(shù)的研究。支持向量機(jī)的泛化能力與核函數(shù)密切相關(guān),如何構(gòu)造與實(shí)際問題相適應(yīng)的核函數(shù)一直是支持向量機(jī)研究的重要課題。Amari提出利用試驗(yàn)數(shù)據(jù)修正已有核函數(shù),使之逐步與問題相吻合。針對文本分類、圖像處理(分類、邊緣檢測、識別等)、基因序列分析等具體問題需要構(gòu)造不同類型的核函數(shù),作為度量樣本間相似性的尺度,以求獲得的泛化性能優(yōu)于高斯核或多項式核。

4)支持向量預(yù)選取和簡化。觀測樣本中占少數(shù)的支持向量決定了支持向量機(jī)的解。因此,如果能夠依據(jù)樣本的幾何分布信息或者密度信息直接估計出支持向量的近似集合,并在該近似集上進(jìn)行訓(xùn)練,就能夠顯著加快支持向量機(jī)的學(xué)習(xí)速度。把此類方法稱為“支持向量預(yù)選取方法”。目前已經(jīng)提出的方法包括TransRed和GetBorder方法、類中心距離比方法、“guard向量”方法、模糊預(yù)選取方法等。

另外,如果支持向量數(shù)目過多,勢必導(dǎo)致決策過慢,不利于應(yīng)用到具有實(shí)時性要求的模式識別問題。因此,在對支持向量機(jī)的泛化性能影響最小的前提下,研究縮減支持向量的數(shù)目是有積極意義的。目前已經(jīng)提出的方法包括“原像”法、“近似原像”法、去線性相關(guān)性的方法及“Bottom-up”方法等。

5)處理多類問題。支持向量機(jī)是針對二分類的模式識別問題而提出的,如何有效地將其擴(kuò)展到多類問題是當(dāng)前理論研究的一個重要內(nèi)容。目前,構(gòu)造多分類支持向量機(jī)的方法主要有兩種。第一種方法的基本思想是通過組合多個二值支持向量機(jī)分類器來解決多分類問題,如一對多(one-against-rest)、一對一(one-against-one)、DAG-SVM、ECOC-SVM等方法;第二種方法直接將二值支持向量機(jī)擴(kuò)展成多值支持向量機(jī),但目前存在目標(biāo)函數(shù)復(fù)雜、計算復(fù)雜度高、難以實(shí)現(xiàn)等局限,有待進(jìn)一步研究。

支持向量機(jī)作為一種廣義的前饋神經(jīng)網(wǎng)絡(luò),根植于統(tǒng)計學(xué)習(xí)理論,具有較好的學(xué)習(xí)泛化能力,在本書第4章將介紹幾種基于支持向量機(jī)的監(jiān)督學(xué)習(xí)方法,第7章則將介紹基于支持向量機(jī)的半監(jiān)督學(xué)習(xí)方法。

(3)自適應(yīng)神經(jīng)網(wǎng)絡(luò)

自適應(yīng)神經(jīng)網(wǎng)絡(luò)是一種基于自適應(yīng)諧振理論(Adaptive Resonance Theory,ART)的特殊神經(jīng)網(wǎng)絡(luò)。多數(shù)神經(jīng)網(wǎng)絡(luò)采用分布式的知識表達(dá)形式,即單個神經(jīng)元或單個連接權(quán)的具體意義都無法給出清晰的解釋,這使得多數(shù)神經(jīng)網(wǎng)絡(luò)都成為“黑箱”模型,模型通過訓(xùn)練獲得的知識隱含在大量的神經(jīng)元閾值和連接權(quán)值中。而自適應(yīng)神經(jīng)網(wǎng)絡(luò)則在網(wǎng)絡(luò)結(jié)構(gòu)解釋性方面有突出的優(yōu)勢。

以Grossberg為代表的波士頓學(xué)派深入研究了自適應(yīng)諧振理論,為解決競爭學(xué)習(xí)過程中的“穩(wěn)定性-可塑性”兩難問題(Stability-plasticity Dilemma)而提出的一種算法模型。該模型不僅較好地實(shí)現(xiàn)了對生物神經(jīng)系統(tǒng)記憶形式的模擬,還具有突出的知識解釋能力,模型的權(quán)值具有明確的含義,并可以表示為規(guī)則直接使用。Carpenter、Grossberg等[107]研究者根據(jù)該模型的思路所做的工作取得了豐富的成果,自適應(yīng)諧振理論因此也成為神經(jīng)網(wǎng)絡(luò)的一個重要分支。這些成果包括:1987年,建立了ART1模型,能夠穩(wěn)定地學(xué)習(xí)任何二值輸入序列。該模型的關(guān)鍵是自上而下的學(xué)習(xí)期望對自下而上的信息傳播施加注意力控制,從而防止了已學(xué)到的知識被新學(xué)習(xí)的信息覆蓋。此后又相繼建立起ART2和ART3兩個模型,使模型的穩(wěn)定性得到進(jìn)一步提升。在1991年提出一種ARTMAP模型,該模型是兩個ART1模塊的組合,利用一個匹配場實(shí)現(xiàn)互聯(lián),從而能穩(wěn)定地對任意輸入模式序列進(jìn)行監(jiān)督學(xué)習(xí)。1992年,對ARTMAP進(jìn)行改進(jìn),使用兩個Fuzzy ART模塊代替原來的ART1模塊,從而構(gòu)建出一種Fuzzy ARTMAP網(wǎng)絡(luò)。

作為一種發(fā)展較為全面的競爭型網(wǎng)絡(luò)模型,F(xiàn)uzzy ARTMAP在較好地模擬生物神經(jīng)系統(tǒng)的記憶形式的同時,也同樣具有較強(qiáng)的知識解釋能力。該網(wǎng)絡(luò)的最大特點(diǎn)是能夠根據(jù)樣本分布特性自適應(yīng)地確定子類別節(jié)點(diǎn),從而更好地擬合樣本數(shù)據(jù)的分布模式。Fuzzy ARTMAP網(wǎng)絡(luò)在多個領(lǐng)域都取得了成功應(yīng)用。例如,Parsons和Carpenter[108]將Fuzzy ARTMAP網(wǎng)絡(luò)用于信息融合與空間數(shù)據(jù)挖掘,取得令人滿意的結(jié)果。Palaniappan等[109]將Fuzzy ARTMAP網(wǎng)絡(luò)作為核心技術(shù)建立了“人腦-計算機(jī)”交互系統(tǒng)。Rubin[110]使用Fuzzy ARTMAP網(wǎng)絡(luò)分析了多波段雷達(dá)信號剖面,試驗(yàn)結(jié)果證明,該網(wǎng)絡(luò)可以有效提升分類精度,并有效降低對存儲空間的需求。Downs等[111]在醫(yī)療模式分類問題應(yīng)用Fuzzy ARTMAP網(wǎng)絡(luò),優(yōu)化了特征提取以及決策判定的效率。Aggarwal等[112]在研究中發(fā)現(xiàn),在復(fù)雜工況下Fuzzy ARTMAP網(wǎng)絡(luò)仍然能高效地完成故障診斷任務(wù),在復(fù)雜回路傳動系統(tǒng)故障診斷的過程中,F(xiàn)uzzy ARTMAP網(wǎng)絡(luò)比BP等其他神經(jīng)網(wǎng)絡(luò)更為適用。Tan等[113]在ARTMAP網(wǎng)絡(luò)中引入動態(tài)延遲調(diào)整算法,彌補(bǔ)了原方法中子類范圍重疊的缺點(diǎn)。Carpenter和Markuzon[114]在Fuzzy ARTMAP網(wǎng)絡(luò)中引入分布式預(yù)測和子類統(tǒng)計技術(shù),使網(wǎng)絡(luò)的預(yù)測精度和訓(xùn)練速度都得以提升。Tan等[115]在Fuzzy ARTMAP網(wǎng)絡(luò)中引入剪枝策略,通過訓(xùn)練去除信息量較低的部分節(jié)點(diǎn),有效地降低了網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度。Charalampidis等[116]改進(jìn)了Fuzzy ARTMAP網(wǎng)絡(luò)的測試算法,從而增強(qiáng)了網(wǎng)絡(luò)處理含噪聲信號時的魯棒性。Koufakou等[117]引入交叉檢驗(yàn)技術(shù),很好地控制了模型訓(xùn)練過程中存在的過擬合問題,并且也簡化了網(wǎng)絡(luò)結(jié)構(gòu),然而交叉檢驗(yàn)也會增加網(wǎng)絡(luò)的計算復(fù)雜度。Gomez-Sanchez等[118]利用互信息(Mutual Information)作為訓(xùn)練過程新的判定準(zhǔn)則,從而有效解決了Fuzzy ARTMAP網(wǎng)絡(luò)類別節(jié)點(diǎn)的擴(kuò)張問題。Vakil-Baghmisheh和Pavesˇic'[119]簡化處理了Fuzzy ARTMAP網(wǎng)絡(luò)訓(xùn)練過程中新節(jié)點(diǎn)創(chuàng)建和遍歷比較兩個操作步驟,使網(wǎng)絡(luò)的訓(xùn)練速度得到顯著提升。

還有一些學(xué)者在研究Fuzzy ARTMAP網(wǎng)絡(luò)的過程中,將ARTMAP網(wǎng)絡(luò)與統(tǒng)計學(xué)方法相結(jié)合,構(gòu)造出了多種性能出色的統(tǒng)計型ARTMAP網(wǎng)絡(luò)。例如,Williamson[120]通過更新和改造ARTMAP網(wǎng)絡(luò)的節(jié)點(diǎn)選擇函數(shù)及匹配跟蹤函數(shù),提出一種Gaussian ARTMAP網(wǎng)絡(luò)。該網(wǎng)絡(luò)不僅保留了原始Fuzzy ARTMAP網(wǎng)絡(luò)模型自適應(yīng)生成節(jié)點(diǎn)的能力,在處理含噪聲數(shù)據(jù)的過程中也表現(xiàn)出良好的魯棒性。Muchoney和Williamson[121]基于Gaussian ARTMAP網(wǎng)絡(luò)建立算法,自適應(yīng)地提取了遙感圖像中包含的植被指數(shù)(Vegetation Index,VI)信息。Vigdor和Lerner等[122]提出一種Bayesian ARTMAP網(wǎng)絡(luò),根據(jù)Bayesian理論方法對基本Fuzzy ARTMAP網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)進(jìn)行了重新調(diào)整:①將節(jié)點(diǎn)的激活函數(shù)替換為多維高斯函數(shù);②實(shí)現(xiàn)了節(jié)點(diǎn)數(shù)目自適應(yīng)縮減或增加的機(jī)制;③基于貝葉斯判決理論(Bayes’decision theory)來完成學(xué)習(xí)和推理過程;④給出節(jié)點(diǎn)與類別間的相互關(guān)系的概率描述。由于具有上述特點(diǎn),Bayesian ARTMAP網(wǎng)絡(luò)能夠?qū)Ψ植贾睾系臉颖拘蛄羞M(jìn)行分類,而且在分類精度和魯棒性上均比基本的Fuzzy ARTMAP網(wǎng)絡(luò)有顯著提升。Bayesian ARTMAP網(wǎng)絡(luò)等統(tǒng)計型ARTMAP網(wǎng)絡(luò)能夠靈活地與其他統(tǒng)計學(xué)方法(如EM算法)進(jìn)行整合,并憑借其自適應(yīng)結(jié)構(gòu)調(diào)整能力來彌補(bǔ)統(tǒng)計學(xué)方法本身的不足。

本書在第6章將ARTMAP神經(jīng)網(wǎng)絡(luò)與半監(jiān)督學(xué)習(xí)方法相結(jié)合,介紹基于ARTMAP的半監(jiān)督學(xué)習(xí)方法。

(4)極限學(xué)習(xí)機(jī)

極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是一種新型單隱層前饋神經(jīng)網(wǎng)絡(luò)[123]。極限學(xué)習(xí)機(jī)克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)基于梯度下降學(xué)習(xí)算法導(dǎo)致的訓(xùn)練速度慢、泛化性能差等問題[124]。極限學(xué)習(xí)機(jī)隨機(jī)地對單隱含層網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)偏移量和輸入權(quán)值進(jìn)行賦值,只經(jīng)過一步運(yùn)算即求出網(wǎng)絡(luò)的輸出權(quán)值的解析解,從而極大地提高了網(wǎng)絡(luò)的訓(xùn)練速度。極限學(xué)習(xí)機(jī)算法的核心思想是,通過求解最小二乘問題來完成單隱含層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,過程中用Moore-Penrose廣義逆來計算輸出權(quán)值矩陣,從而避免了傳統(tǒng)前饋網(wǎng)絡(luò)反復(fù)迭代帶來的巨大時間消耗,同時也保證了所求輸出權(quán)值的數(shù)值解具有唯一性。而在運(yùn)算速度上的優(yōu)勢之外,極限學(xué)習(xí)機(jī)還同時具有網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練樣本相互獨(dú)立的特性,即網(wǎng)絡(luò)結(jié)構(gòu)與數(shù)據(jù)不相關(guān)。

極限學(xué)習(xí)機(jī)已逐漸成為神經(jīng)網(wǎng)絡(luò)的新研究熱點(diǎn),在分類、函數(shù)逼近、人臉識別以及地形重構(gòu)等眾多領(lǐng)域都取得了成功應(yīng)用[125,126]。學(xué)界對極限學(xué)習(xí)機(jī)進(jìn)行了多方面的改進(jìn),這些改進(jìn)模型大致可以歸納為增量型、優(yōu)化型、替換型和組合型四類。

1)增量型極限學(xué)習(xí)機(jī)。基于一定的準(zhǔn)則逐步增加隱含層節(jié)點(diǎn)個數(shù),此類方法能隨機(jī)地調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),適于處理批量數(shù)據(jù)。壓縮型增量式極限學(xué)習(xí)機(jī),通過剪枝處理去掉訓(xùn)練中數(shù)值幅度變化相對較小的隱含層節(jié)點(diǎn),來降低網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,從而進(jìn)一步加快了模型的運(yùn)行速度。將傳統(tǒng)實(shí)數(shù)域的增量式極限學(xué)習(xí)機(jī)擴(kuò)展到復(fù)數(shù)域,從而提升了復(fù)數(shù)函數(shù)逼近問題的求解速度。

2)優(yōu)化型極限學(xué)習(xí)機(jī)。針對傳統(tǒng)極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)結(jié)構(gòu)龐大的弊端,對網(wǎng)絡(luò)的權(quán)值和結(jié)構(gòu)引入優(yōu)化技術(shù)進(jìn)行處理。研究表明,使用遺傳算法對極限學(xué)習(xí)機(jī)的輸入權(quán)值和隱含層節(jié)點(diǎn)進(jìn)行選擇,能夠大幅降低極限學(xué)習(xí)機(jī)的結(jié)構(gòu)復(fù)雜度,并提升其泛化性能[127];利用線性規(guī)劃方法設(shè)計低復(fù)雜性的隱含層輸出矩陣,也能提升模型的抗干擾能力[128];引入二次優(yōu)化算法[129]對輸出權(quán)值進(jìn)行調(diào)整也可取得較好的效果。

3)替換型極限學(xué)習(xí)機(jī)。通過使用sigmoid之外的其他類型函數(shù)作為隱含層節(jié)點(diǎn)的激活函數(shù),來實(shí)現(xiàn)網(wǎng)絡(luò)性能的提升。例如,用正弦和余弦相結(jié)合的特殊函數(shù)來替換原始極限學(xué)習(xí)機(jī)的隱含層節(jié)點(diǎn)激活函數(shù),能夠顯著增強(qiáng)極限學(xué)習(xí)機(jī)的函數(shù)逼近能力,并提高算法的收斂速度[130]

4)組合型極限學(xué)習(xí)機(jī)。通過構(gòu)造一種網(wǎng)絡(luò)結(jié)構(gòu)的共享框架,實(shí)現(xiàn)多個極限學(xué)習(xí)機(jī)共享相同的隱含層節(jié)點(diǎn)和隱含層輸出矩陣,從而發(fā)揮組合學(xué)習(xí)的優(yōu)勢來獲得分類精度的提升。在處理實(shí)時數(shù)據(jù)的學(xué)習(xí)和預(yù)測問題時,使用組合型極限學(xué)習(xí)機(jī),有效地提升了實(shí)時預(yù)測的精度及預(yù)測速度[131]

上述改進(jìn)中,優(yōu)化型和組合型極限學(xué)習(xí)機(jī),在性能上比傳統(tǒng)的極限學(xué)習(xí)機(jī)雖然有所提升,但它們都是以破壞結(jié)構(gòu)無關(guān)性(即網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練樣本不相關(guān)的)為代價來實(shí)現(xiàn)的特性[132]。當(dāng)訓(xùn)練樣本較少以至于不能反映數(shù)據(jù)空間全貌時,這些改進(jìn)算法不但難以發(fā)揮優(yōu)勢,甚至可能對極限學(xué)習(xí)機(jī)的學(xué)習(xí)效果產(chǎn)生負(fù)面影響。作為極限學(xué)習(xí)機(jī)的一種特殊的增量式擴(kuò)展,在線序列極限學(xué)習(xí)機(jī)算法[133](Online Sequential ELM,OS-ELM)在訓(xùn)練之初就先確定網(wǎng)絡(luò)隱含層節(jié)點(diǎn),從而保留了極限學(xué)習(xí)機(jī)的結(jié)構(gòu)無關(guān)性。OS-ELM的使用范圍較廣,不但能處理逐一輸入的樣本序列,還能對大小不固定的樣本集序列進(jìn)行處理。此外,OS-ELM能夠可逆雙向推導(dǎo),它可以基于后續(xù)迭代訓(xùn)練的結(jié)果反向?qū)η懊娴^程中的參數(shù)狀態(tài)進(jìn)行回推,這一特性彌補(bǔ)了多數(shù)增量式方法單向訓(xùn)練模式的缺陷,從而為建立可逆半監(jiān)督學(xué)習(xí)方法奠定了理論基礎(chǔ)。

基于極限學(xué)習(xí)的監(jiān)督學(xué)習(xí)方法將在本書第5章進(jìn)行詳細(xì)介紹,極限學(xué)習(xí)機(jī)在半監(jiān)督學(xué)習(xí)領(lǐng)域的擴(kuò)展將在本書第8章論述。

(5)其他神經(jīng)網(wǎng)絡(luò)

目前神經(jīng)網(wǎng)絡(luò)已有幾十種不同的模型,除上面介紹的幾種較為典型的網(wǎng)絡(luò)模型外,還有許多重要的神經(jīng)網(wǎng)絡(luò),如隨機(jī)神經(jīng)網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、Boltzmann機(jī)以及新近提出的回聲狀態(tài)網(wǎng)絡(luò)。下面對這些網(wǎng)絡(luò)進(jìn)行簡要介紹,以期使讀者較為全面地了解神經(jīng)網(wǎng)絡(luò)模型。

依據(jù)神經(jīng)生理學(xué)的觀點(diǎn),生物的神經(jīng)元本質(zhì)上具有隨機(jī)性。生物神經(jīng)網(wǎng)絡(luò)重復(fù)接受相同刺激時,它的響應(yīng)卻并不相同,這說明隨機(jī)性是生物神經(jīng)活動的重要特征。隨機(jī)神經(jīng)網(wǎng)絡(luò)(Random Neural Network,RNN)正是模仿生物神經(jīng)網(wǎng)絡(luò)的隨機(jī)性特征而設(shè)計并應(yīng)用的[134]。隨機(jī)神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)形式主要有兩種:一種在神經(jīng)元上采用隨機(jī)性的激活函數(shù);另一種則采用隨機(jī)的連接權(quán)值,即在一般的神經(jīng)網(wǎng)絡(luò)中引入適當(dāng)?shù)碾S機(jī)噪聲。第一種方法的代表是美國佛羅里達(dá)大學(xué)(UCF)的Erol Gelenbe教授于1989年提出的隨機(jī)神經(jīng)網(wǎng)絡(luò),也稱為Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)(Gelenbe Neural Network,GNN)[135]。加入白噪聲的Hopfield網(wǎng)絡(luò)則屬于第二種方法。

以Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),Gelenbe等人于1991年提出一種二值前向型隨機(jī)神經(jīng)網(wǎng)絡(luò)(Bipolar Random Neural Network,BRNN)模型。二值前向型隨機(jī)神經(jīng)網(wǎng)絡(luò)由一對標(biāo)準(zhǔn)的互補(bǔ)Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)構(gòu)成,兩個網(wǎng)絡(luò)的神經(jīng)元節(jié)點(diǎn)起到剛好相反的作用:正神經(jīng)元采用與Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)初始定義相同的運(yùn)行機(jī)制,而負(fù)神經(jīng)元則與Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)初始定義剛好對稱相反。每次負(fù)信號的到來,都會增加負(fù)神經(jīng)元的優(yōu)勢,而正信號則能抵消負(fù)信號的作用。二值前向型隨機(jī)神經(jīng)網(wǎng)絡(luò)已被證明可以作為廣義函數(shù)逼近器逼近連續(xù)函數(shù)。

在1994年,Gelenbe等人又在Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上提出一種動態(tài)隨機(jī)神經(jīng)網(wǎng)絡(luò)(Dynamical Random Neural Network,DRNN),該網(wǎng)絡(luò)通過設(shè)定初始值并增加一個負(fù)反饋回路來提高網(wǎng)絡(luò)性能,該負(fù)反饋采用Cohen-Grossberg型動態(tài)方程的形式實(shí)現(xiàn)。動態(tài)隨機(jī)神經(jīng)網(wǎng)絡(luò)區(qū)別于Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)的主要特點(diǎn)是,Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)是一個開環(huán)系統(tǒng),在初始化以后外界信號的輸入就保持不變;動態(tài)隨機(jī)神經(jīng)網(wǎng)絡(luò)則是一個閉環(huán)負(fù)反饋系統(tǒng)。在標(biāo)志性的優(yōu)化問題——旅行商問題(TS)上,動態(tài)隨機(jī)神經(jīng)網(wǎng)絡(luò)已得到了成功應(yīng)用。

Gelenbe等人在1999年進(jìn)一步提出一種多類別隨機(jī)神經(jīng)網(wǎng)絡(luò)(Multiple Class Random Neural Networks,MCRNNs)。該網(wǎng)絡(luò)是為了建立一個基于神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)構(gòu)架來同時處理不同種類信息,而對Gelenbe隨機(jī)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行的一種合成。復(fù)合網(wǎng)絡(luò)中不同的信號代表了不同類別,可以是聲音處理中的不同頻率以及圖像處理中的不同顏色,又或者是多傳感器信號處理中來自不同傳感器的信號。

隨機(jī)神經(jīng)網(wǎng)絡(luò)模仿生物神經(jīng)網(wǎng)絡(luò),再現(xiàn)了神經(jīng)元接受刺激并產(chǎn)生興奮或抑制的生理機(jī)制,在細(xì)胞神經(jīng)元數(shù)學(xué)模型中首次引入了隨機(jī)性概念。而在此前的1982年,美國加州工學(xué)院物理學(xué)家Hopfield所提的反饋網(wǎng)絡(luò),同樣也使用神經(jīng)元的輸出信號來表示興奮或抑制的狀態(tài),并在聯(lián)想記憶和優(yōu)化計算中得到成功應(yīng)用。Hopfield網(wǎng)絡(luò)在處理優(yōu)化問題時存在容易陷入局部極小點(diǎn)的缺點(diǎn),為此研究者們考慮在神經(jīng)元網(wǎng)絡(luò)的神經(jīng)元狀態(tài)更新規(guī)則中引入隨機(jī)的概念。模擬退火算法(Simulated Annealing Algorithm)就是據(jù)此引入的算法,它將神經(jīng)網(wǎng)絡(luò)的狀態(tài)視為金屬內(nèi)的“粒子”,并將網(wǎng)絡(luò)在不同狀態(tài)下的能量函數(shù)視為粒子所處的能態(tài)。模擬退火算法設(shè)置一種控制參數(shù)T,如果T較大,則網(wǎng)絡(luò)能量有較大可能由低向高變化;而如果T減小,則這種可能性也相應(yīng)減小。可以將這個參數(shù)想象為溫度,當(dāng)溫度參數(shù)逐漸減小時,整個網(wǎng)絡(luò)的狀態(tài)就像金屬的退火過程一樣趨于穩(wěn)定。利用模擬退火算法對網(wǎng)絡(luò)狀態(tài)進(jìn)行足夠多次的更新后,網(wǎng)絡(luò)狀態(tài)將表現(xiàn)出Boltzmann分布的特性,即最小能量狀態(tài)將以最大的概率出現(xiàn),這就是Hinton在1985年提出的Boltzmann機(jī)模型,也被簡稱為BM(Boltzmann Machine)網(wǎng)絡(luò)。在模擬退火算法和Boltzmann機(jī)模型中,神經(jīng)元的輸出不再如Hopfield網(wǎng)絡(luò)那樣完全由激活函數(shù)來確定,而會發(fā)生隨機(jī)性改變,即輸出為興奮或者抑制由以能量Ei為變量的概率函數(shù)來決定,輸出可以用{0,1}表示。

以網(wǎng)絡(luò)結(jié)構(gòu)而言,遞歸神經(jīng)網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、模擬退火算法以及Bo ltzmann機(jī)的主要區(qū)別是,遞歸神經(jīng)網(wǎng)絡(luò)是一種開放型遞歸的單層網(wǎng)絡(luò);Hopfield網(wǎng)絡(luò)是一種全反饋的單層網(wǎng)絡(luò);模擬退火算法沒有固定的網(wǎng)絡(luò)結(jié)構(gòu),僅僅是一種使能量函數(shù)跳出局部極值的算法;Boltzmann機(jī)包含可視層與隱含層兩部分,是一種雙向連接網(wǎng)絡(luò),而其中可視層又能分為輸入和輸出部分。與一般的多層網(wǎng)絡(luò)結(jié)構(gòu)不同,Boltzmann機(jī)的網(wǎng)絡(luò)層次沒有明顯的界線。3種網(wǎng)絡(luò)節(jié)點(diǎn)都是雙向連接,而權(quán)值也對稱相等。在Hopfield網(wǎng)絡(luò)和Boltzmann機(jī)的網(wǎng)絡(luò)中,權(quán)值連接表示神經(jīng)元間的連接強(qiáng)度,而遞歸神經(jīng)網(wǎng)絡(luò)中權(quán)值連接是一個隨機(jī)的概念,對應(yīng)了被激活的神經(jīng)元間發(fā)射信號的概率,這與細(xì)胞的生理機(jī)制更為接近。

回聲狀態(tài)網(wǎng)絡(luò)(Echo State Network,ESN)的研究在最近幾年才剛剛興起[136],與流體狀態(tài)機(jī)[137](Liquid State Machines,LSMs)一樣,回聲狀態(tài)網(wǎng)絡(luò)利用一個固定權(quán)值的儲備池進(jìn)行計算[138,139]。《科學(xué)》雜志在2004年對回聲狀態(tài)網(wǎng)絡(luò)的報道引起了國內(nèi)外學(xué)者對儲備池方法的重視和對回聲狀態(tài)網(wǎng)絡(luò)方法本身的關(guān)注。H.Jaeger等在2005年的國際神經(jīng)網(wǎng)絡(luò)聯(lián)合會議(IJCNN)上,就現(xiàn)有的儲備池方法進(jìn)行了討論,并取得一定程度的共識。討論認(rèn)為基于儲備池的計算能取得令人鼓舞的效果,但這類方法仍存在一些不可回避的問題。

H.Jaeger認(rèn)為,現(xiàn)有的儲備池計算仍不夠成熟,存在眾多缺陷,他以“Reservoir Riddles(儲備池之謎)”為題發(fā)表了他對于儲備池計算的最新觀點(diǎn)。作為回聲狀態(tài)網(wǎng)絡(luò)的提出者,H.Jaeger在文章中非常坦誠地向讀者介紹了儲備池的研究現(xiàn)狀,并提出儲備池研究所存在的困惑和難以解決的問題。H.Jaeger指出,為使儲備池技術(shù)更為完善,首先必須解決一個問題:“在一些情況下,狀態(tài)信號自相關(guān)矩陣的特征值的分散度達(dá)到10的12次方甚至更高。伴隨這一現(xiàn)象,會得到較大輸出權(quán)值(很容易達(dá)到10的8次方量級)”。大的輸出權(quán)值會導(dǎo)致以下不利后果:首先,較大的輸出權(quán)值意味著泛化能力的低下;其次,存儲大的輸出權(quán)值需更高精度的計算和更大存儲空間,因而難以通過廉價快速的超大規(guī)模集成電路(Very Large Scale Integration,VLSI)來實(shí)現(xiàn);最后,在對具有輸出反饋結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,也會因大的輸出權(quán)值造成不穩(wěn)定現(xiàn)象。

D.Prokhorov指出,處理實(shí)際含噪聲的時間序列對于儲備池方法仍是一個挑戰(zhàn),目前報道的研究也只限于不含噪聲的情況。而在穩(wěn)定性和回聲狀態(tài)屬性方面的研究,最近也有一些報道[140]。譜半徑約束能夠保證儲備池運(yùn)行的穩(wěn)定,但此約束被有些學(xué)者認(rèn)為過于松散。

與傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)類似,儲備池方法也能采用梯度下降以及卡爾曼濾波算法來完成訓(xùn)練。反向傳播解相關(guān)(BackPropagation-DeCorrelation,BPDC)算法是由J.J.Steil提出的對儲備池進(jìn)行訓(xùn)練的一種在線訓(xùn)練算法[141]。根據(jù)儲備池方法的基本原則,反向傳播解相關(guān)算法的設(shè)計使用結(jié)構(gòu)固定的儲備池處理輸入信號,并根據(jù)當(dāng)前輸出誤差的反向傳播對輸出層神經(jīng)元間的連接權(quán)值進(jìn)行更新。反向傳播解相關(guān)算法的起源是Atiya-Parlos遞歸學(xué)習(xí)算法,因?yàn)槊看螌W(xué)習(xí)只處理輸出權(quán)值,相應(yīng)的計算復(fù)雜度為ON)(N表示儲備池內(nèi)部神經(jīng)元節(jié)點(diǎn)的個數(shù))。實(shí)際應(yīng)用的結(jié)果表明,反向傳播解相關(guān)算法的性能較最小均方誤差算法(Least Mean Square,LMS)更為穩(wěn)定。遞歸最小二乘算法(Recursive Least Square,RLS)是儲備池的另一種在線學(xué)習(xí)算法。事實(shí)上,可以通過卡爾曼濾波理論來對遞歸最小二乘進(jìn)行解釋[142]。回聲狀態(tài)網(wǎng)絡(luò)屬于一種線性參數(shù)模型,因此能直接應(yīng)用卡爾曼濾波算法學(xué)習(xí)輸出權(quán)值,這個特點(diǎn)剛好利于在線更新參數(shù)。相比于前面提到的梯度下降算法,卡爾曼濾波算法能使回聲狀態(tài)網(wǎng)絡(luò)更快地收斂,而計算效率和精度也能顯著提高。但是存在的問題是,由于過程中引入包括誤差協(xié)方差矩陣在內(nèi)的太多中間變量,當(dāng)儲備池的狀態(tài)有較高維數(shù)時,在線計算的計算量就會很大[143]

上面提到的兩種儲備池學(xué)習(xí)算法,在形式雖類似于傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò),但僅輸出權(quán)值是網(wǎng)絡(luò)的可調(diào)參數(shù),避免了復(fù)雜的非線性計算,從而具有更高效率。就目前研究而言,偽逆方法[144]是應(yīng)用最廣泛的儲備池學(xué)習(xí)算法。該方法對系數(shù)矩陣進(jìn)行奇異值分解,選出不是零的奇異值作為儲備池輸出權(quán)值的解。由于涉及計算的簡單性,偽逆方法備受關(guān)注。

偽逆算法在簡單易用的同時,也存在較多的缺點(diǎn)[145]。首先是算法的不適定性,在多數(shù)應(yīng)用場合,用來求解輸出權(quán)值的系數(shù)矩陣表現(xiàn)出明顯的病態(tài)特性,即奇異值分布趨于連續(xù)、缺少明顯的跳躍變化,而最大和最小奇異值的差別較為懸殊,并具有較大條件數(shù)。由于無法確定系數(shù)矩陣的數(shù)值秩,導(dǎo)致產(chǎn)生較大的輸出權(quán)值。如果儲備池維數(shù)較高,這種現(xiàn)象會更加明顯。另一個問題在于對儲備池的泛化能力控制[146]。通常的策略是選擇盡量小規(guī)模的儲備池,而在多數(shù)情況下,過小的維數(shù)使得儲備池規(guī)模接近于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。對于某些數(shù)據(jù),儲備池的網(wǎng)絡(luò)規(guī)模可能與傳統(tǒng)的多層感知機(jī)相近甚至相同。于是就導(dǎo)致不能較好地發(fā)揮儲備池方法的優(yōu)點(diǎn),并對儲備池的泛化性能產(chǎn)生影響。

主站蜘蛛池模板: 马关县| 尼木县| 枞阳县| 若羌县| 正定县| 西丰县| 南和县| 贵南县| 额济纳旗| 页游| 湖州市| 宜兰县| 内江市| 孟州市| 绥棱县| 共和县| 福建省| 祥云县| 宁化县| 桃园市| 青州市| 贵德县| 祁门县| 三穗县| 泰顺县| 平乡县| 旬阳县| 来凤县| 张北县| 苏州市| 连州市| 屯留县| 荔浦县| 汉源县| 磐石市| 丹寨县| 镇雄县| 富宁县| 陇川县| 衡山县| 通州市|