1.7 空間信息智能處理方法
1.7.1 模式識別處理方法
下面從類條件概率分布的估計、線性判別法、貝葉斯分類器、誤差界以及新的模式識別(PR)方法等方面概述近幾年有關統計模式識別方面的研究進展。
1.類條件概率分布的估計
考慮將待識樣本X∈Rd判別為C個不同類ω1,ω2,…,ωc中的某一類。由貝葉斯定理,X應判為具有最大后驗概率的那一類。由于類條件概率分布未知,故通常假定分布為某一帶參數的模型如多維正態分布(當多維正態分布中均值向量和協方差矩陣已知時,由此分布得到的二次判別函數是最優的),而表示分布的參數則由訓練樣本進行估計。當訓練樣本不充足時,分布參數包含估計誤差,會影響識別精度。為了提高分類精度,H。Ujiie等人提出了這樣一種方法:首先,將給定數據進行變換(帶指數函數的變換),使得變換后的數據更近似于正態分布,而不論原數據所服從的分布如何,且在理論上找到了最優變換;然后,為了處理這些變換后的數據,對傳統的二次判別函數進行了修改;最后,提出了變換的一些性質并通過實驗表明了該方法的有效性。為了避免分類精度的降低,人們通過研究特征值的估計誤差,提出了各種方法,但對特征向量的估計誤差卻考慮得不多。M。Iwamura等人經過研究得出:特征向量的估計誤差是造成分類精度降低的另一個因素,因而在相關文獻中提出了通過修改特征值以彌補特征向量的估計誤差的方法。
2.線性判別法
20世紀90年代中期,統計學習理論和支持向量機算法的成功引起了廣大研究人員的重視。支持向量機算法具有較扎實的理論基礎和良好的推廣能力,并在手寫數字識別、文本分類等領域取得了良好的效果。它的一個引人注目的特點是利用滿足Mercer條件的核函數實現非線性分類器的設計,而不需要知道非線性變換的具體形式。Fisher判別法和主成分分析法是在模式分類與特征抽取中已經獲得廣泛應用的傳統線性方法。近年來出現的基于核函數的Fisher判別法與基于核函數的主成分分析法是它們的線性推廣,具有性能更好、適用范圍更廣、靈活性更高等特點,是值得關注的應用前景看好的新方法。
考慮有兩類問題且每類中的訓練樣本數大于樣本的維數的情況時,基于訓練樣本來劃分一個多維空間的兩種方法,是對Fisher線性判別法的兩點改進:第一種是多維參數搜索;第二種是遞歸Fisher方法。這兩種方法在模式檢測方面比標準的Fisher判別法訓練效果更好。利用Mercer核,可以將這兩個方法推廣到非線性決策面。
3.貝葉斯分類器
PR的目的就是要判別一個模式(由它的特征表示)屬于某一類。考慮有兩類的情況。采用貝葉斯分類器時,模式是按最大后驗概率進行分類的,這由一個判別函數來完成。多數情況下,該判別函數是線性的或二次的。
最優決策的貝葉斯分類器可以由概率神經網絡來實現。Menhaj先前提出過一個新的學習算法,來訓練當所有類別完全分離時的網絡,并將該方法推廣到一般的有重疊類別的情況。可以用非線性動態系統(nonlinear dynamical system,NDS)的集合來對模式進行分類,其中每個NDS將輸入值分類為IN或OUT類型。輸入值通過每一個NDS 進行迭代并沿著一個軌道收斂到一個全局穩定吸引子(attractor),它是該NDS所代表的類的原型。與傳統的神經網絡方法相比,競相吸引子神經網絡(race to the attractor neural network,RTANN)模型方法受益于與人的大腦聯系更廣的幾個有利條件。
要從雜亂的背景圖像中檢測出目標,諸如人臉和汽車等,是一個具有挑戰性的課題。許多應用系統需要準確而快速的檢測。換句話說,降低檢測錯誤和減少計算復雜性是兩個主要問題,而且很多目標檢測的工作集中在性能改善上,而對復雜性問題注意很少。通過在貝葉斯決策規則下的誤差分析,可以靠減少檢測時系數的數量來降低計算的復雜性。
4.誤差界
最小分類錯誤(minimum classification error,MCE)訓練準則,以及其他判別訓練準則,如極大交互信息(maximum mutual information,MMI)準則等,都是統計模式識別中訓練模型參數的標準極大似然(maximum likelihood,ML)準則的重要選擇。MCE準則表示對給定的分類器訓練數據的試驗錯誤率的光滑模型。由于訓練準則與降低錯誤率的最終目標之間的直接關系,MCE訓練的分類器不會太依賴于某個模型假設的性質,正如ML和MMI訓練的情況。MCE準則給出了一個獨立于相應的模型分布的貝葉斯錯誤率的上界。
按照訓練樣本的分類間隔數,設置線性分類器的一般誤差的一個界。該結論是利用概率近似校正(probably approximately correct,PAC)的貝葉斯結構得到的。由相同的訓練數據構造出來的分類器之間存在弱相關性。試驗結果表明,若弱相關低且期望的分類間隔大,那么基于這些分類器的線性組合的決策規則可以使錯誤率呈指數級減少。
5.模式識別新方法
(1)共享核函數模型
概率密度估計構成一個無監督的方法,該方法試圖在所得到的沒有標記的數據集中建立原始密度函數的模型,其重要應用之一就是它可以被用于解決分類問題。廣泛應用于統計模式識別中密度估計的方法之一是基于混合密度模型的。根據期望最大(expectation-maximization,EM)算法可以得到這些模型中有效的訓練過程。按照共享核函數可以得出條件密度估計的更一般的模型,這里類條件密度可以用一些對所有類的條件密度估計產生作用的核函數表示。與其相反的是獨立混合模型的方法,其中每個類的密度采用獨立混合密度進行估計。
(2)粗糙集理論方法
在20世紀70年代,波蘭學者Z。Pawlak和一些波蘭的邏輯學家們一起從事關于信息系統邏輯特性的研究。粗糙集理論(rough set theory,RST)就是在這些研究的基礎上產生的。1982年Pawlak發表了經典論文《粗糙集》(Rough Sets),宣告了粗糙集理論(RST)的誕生。此后,RST引起了許多科學家、邏輯學家和計算機研究人員的興趣,他們在粗糙集的理論和應用方面作了大量的研究工作。1992年,Pawlak的專著和應用專集的出版,對這一段時期理論和實踐工作的成果作了較好的總結,同時促進了粗糙集在各個領域的應用;隨后召開的與粗糙集有關的國際會議進一步推動了粗糙集的發展。越來越多的科技人員開始了解并準備從事該領域的研究。目前,粗糙集已成為AI領域中一個較新的學術熱點,在PR、機器學習、知識獲取、決策分析以及過程控制等許多領域得到了廣泛的應用。
在經典RST中,集合的近似是在目標的非空有限全域下實現的。在點的非空不可數集合下實現集合的近似,一些研究結果引入了基于RST的離散粗糙積分。離散粗糙積分有助于近似推理和PR中連續信號的分割。在近似推理中,離散粗糙積分為確定某特定采樣期間傳感器的相關性提供一個基。在PR中,離散粗糙積分可用于雷達天氣數據的分類、汽車模式分類及動力系統故障波形分類等方面。RST是處理模糊和不確定性的一個新的數學工具。用RST構造決策規則的算法一般都是考慮決策規則的數量而不是它們的代價。采用多目標決策來協調規則的簡明和代價之間的沖突,可提高粗糙集的效率和效力。
基于PR方法的動力系統瞬態穩定性估計(transient stability assessment,TSA)通常按兩個模式的分類問題進行處理,即區分穩定和不穩定類,其中有選擇一組有效的特征和建立一個具有高精度分類的模式分類器這兩個基本問題。可通過將粗糙集理論與反向傳播神經網絡(back propagation neural network,BPNN)相結合來進行瞬態穩定性估計,包括特征提取和分類器構造:首先,通過初始輸入特征的離散化,利用基于RST 的誘導學習算法來簡化初始特征集;然后,利用采用半監督學習算法的BPNN作為一個“粗糙分類器”,將系統穩定性分為穩定類、不穩定類和不確定類(邊界區域)等三類。不確定類的引入提供了減少誤分類的一個切實可行的方法,且分類結果的可靠性也因此而大大提高。
(3)仿生模式識別(拓撲模式識別)
基于“認識”事物,而不是基于“區分”事物為目的的PR理論新模型與傳統以“最佳劃分”為目標的統計模式識別相比,更接近于人類“認識”事物的特性,故稱為仿生模式識別;其數學方法在于研究特征空間中同類樣本的連續性(不能分裂成兩個彼此不鄰接的部分)特性。仿生模式識別理論及其高維空間復雜幾何形體覆蓋神經網絡識別方法,應用于地平面剛性目標全方位識別問題取得了初步結果,且對各種形狀相像的動物及車輛模型作全方位識別,結果正確識別率可達到99.75%.
1.7.2 專家系統分類法
遙感圖像解譯專家系統(remote sensing processing expert system,RSPES)是PR與AI技術結合的產物,同時也是遙感數字圖像計算機解譯過程中的重要工具和環節。它利用PR方法獲取地物多種特征,為專家系統解譯遙感圖像提供證據,并應用AI技術及遙感圖像解譯專家的經驗和方法,模擬遙感圖像目視解譯的具體思維過程,進行遙感圖像解譯,起著類似遙感圖像判釋專家的作用。遙感圖像解譯專家系統包括遙感圖像數據庫、解譯知識庫、推理機和解譯器,其中推理機是遙感圖像解譯專家系統的核心。
1.遙感圖像數據庫
遙感圖像是以數字形式表示的遙感影像,每個像元具有相應的空間特征和屬性特征,代表著不同的地物類型和空間關系;而海量的數據需要數據庫來存儲。遙感圖像數據庫包括遙感圖像數據和每個地物單元的不同特征,它由數據庫管理系統進行管理。通過圖像處理與特征提取子系統的圖像處理功能,如濾波、增強、大氣校正、幾何校正、正射糾正等,從圖像中抽取的光譜特征、圖像形狀特征和空間特征等結果,就存儲在遙感圖像數據庫;它是專家系統進行推理、判斷及分析的客觀依據。
2.解譯知識庫
遙感圖像的目視解譯是指從遙感圖像中發現有什么物體以及物體在什么地方分布的過程。它是解譯專家與遙感圖像相互作用的復雜過程,涉及目視解譯者的知識認知、生理和心理等許多環節。目標地物的識別特征包括色調、顏色、陰影、形狀、紋理、大小、位置、圖形和相關布局等,這些知識是解譯者進行遙感圖像解譯的知識庫。遙感解譯知識的獲取主要通過一個具有語義和語法指導的結構編輯器實現。
3.推理機
推理機是計算機內部對圖像識別所進行的推理過程,是遙感圖像解譯專家系統的核心。它是在解譯知識庫的基礎上,對地物像元的屬性特征提出假設,利用地物多種特征作為依據,進行推理驗證,實現遙感圖像的解譯。
推理機推理的方式有正向推理和反向推理兩種。正向推理是指利用事實驅動的方式進行推理,即由已知的客觀事實出發,向結論方向推理。這種推理方式的過程大致為:系統根據地物的各種特征,在知識庫中尋找能匹配的規則;若符合,就將規則的結論部分作為中間結果,利用這個中間結果,繼續與解譯知識庫中的規則進行匹配,直至得到最終的結論。而反向推理是指以目標為驅動的方式進行推理。先提出一個假設,由此進一步尋找能滿足假設的證據。這種推理方式的過程大致為:選定一個目標,在解譯知識庫中尋找滿足假設的規則集;若這個規則集中的某條規則的條件與遙感數據庫中的特征參數相匹配,則執行該規則,否則就將該規則條件部分作為子目標,遞歸執行上述過程,直至總目標被求解或不存在能到此目標的規則。
4.解譯器
解譯器用于用戶與計算機之間的“溝通”,是計算機內部對圖像識別的推理過程的說明工具,其作用就是對推理的過程進行解譯,以便對用戶說明計算機解譯的過程。
遙感圖像專家系統的分析方法或經驗可以用于遙感圖像的智能化判讀和信息獲取,逐步實現遙感圖像的理解。例如,通過分析三江平原濕地植被的光譜、景觀季相及其生存環境等特點,可以找出不同濕地的遙感影像特征。隨著人類對遙感特征認識的深入,建立遙感專家分類決策模型庫,實現地物信息的自動分類提取,將是該分類方法的發展趨勢。
1.7.3 模糊分類法
模糊分類是近年來在遙感影像分類中引入的一種新研究方法,是一種針對不確定性事物的分析方法。它以模糊集合理論(fuzzy sets theory,FST)作為基礎,運用數學模型計算對于所有集合的隸屬度,每一像元都在不同程度上隸屬于不止一個類別。模糊分類的數學原理與傳統的統計分類方法有很大區別,即每一像元中可以混有所有的類別,只是隸屬度不同而已。
有學者提出非監督模糊分類處理,其實質在于利用遙感圖像所含的信息,預先確定以語氣算子表示的隸屬函數,借以求取每一像元對土地覆蓋不同類型的隸屬值,然后根據各像元的隸屬值,按一定的模糊規則實施遙感圖像的分類處理。有學者提出模糊神經網絡分類器,其實質是以模糊權重距離為基礎,采用拓展的反向傳播算法的多層感知分類器,適用于解決遙感圖像分類處理中經常遇到的模糊、重疊且邊界不定、關系不明的普遍性問題。有學者提出模糊分割法,其實質在于首先應用反梯度函數于遙感數字圖像,以獲取模糊集圖像,然后根據模糊集理論(FST)定義一個凸復集,再由凸復集表達式定義一個模糊集及其隸屬函數,借以實施遙感圖像上的模糊分割,即提取模糊圖像中的模糊區。換而言之,將遙感圖像分割成模糊區譜系樹。還有學者提出模糊分類結果的評估法,其實質在于,首先確定模糊分類結果評估用隸屬函數,然后借助于準概率將其變換為分類得分形式,據此計算條件熵量化函數值,借以評估模糊分類結果。盡管這方面的研究實例不多,還有一系列問題有待于進一步探討,但可以肯定地說,利用模糊數學方法進行遙感圖像處理是完全可能的。模糊數學作為遙感圖像分類處理的有效手段之一,具有廣闊的應用前景。
1.7.4 人工神經網絡方法
人工神經網絡(artificial neural network,ANN)屬于非參數分類器,該方法用于遙感分類,始于1988年Hopfield網絡模型用于優化計算的神經網絡模型。神經元網絡模型用于模擬人腦神經元活動的過程,包括對信息的加工、處理、存儲和搜索過程,具有分布式存儲信息,對信息并行處理及推理,以及在信息處理上自組織、自學習。與傳統統計分析方法相比,一方面,神經網絡分類方法不需要任何關于統計分布的先驗知識,用于遙感影像分類時不必考慮像元統計分布特征;另一方面,神經網絡分類方法不需要預定義分類中各個數據源的先驗權值,可以廣泛地用于多源遙感數據分類。不同學者分別提出或應用反向傳播網(back propagation network,BP)、三維Hopfield網、徑向基函數(radial basis function,RBF)神經網絡和小波神經網絡等對遙感圖像進行監督分類。在神經網絡分類方法中,目前應用最多的是反向傳播神經網絡算法。
衛星遙感圖像的BP神經網絡分類方法有:(1) 將各波段數據作為神經網絡的輸入;(2) 將目標類型作為神經網絡的輸出;(3) 選擇樣本訓練網絡;(4)用訓練好的網絡進行圖像分類,從而獲得各類目標的信息分布特征。
在神經網絡應用中,模型需要反復訓練、比較耗時,而且模型訓練的精度會影響整個分類的準確度,一旦模型訓練好之后,神經網絡分類則會很快完成。李穎等人分別用非監督分類、監督分類以及BP神經網絡分類方法把Landsat 5北京某區的遙感圖像,分為城市用地、水田、旱地、菜地、灘涂地等五種用地類型。結果表明,這三種分類結果中神經網絡分類與真實情況最為接近,分類效果最好。駱成鳳等人以中分辨率成像光譜儀(moderate resolution imaging spectroradiometer,MODIS)數據產品為信息源,用神經網絡分類中的BP算法對新疆進行了土地利用分類研究。他們先以新疆石河子為實驗區進行土地利用分類,比較了BP算法與最大似然法的分類精度,前者的精度提高近10%;然后,用BP算法對新疆維吾爾自治區進行了土地利用分類,分為林地、耕地、裸地與城鎮用地、鹽堿地、沙漠、湖泊以及冰雪等;最后統計分類結果中各類別的面積和百分比,所得數據與相關部門公布數據非常接近。
1.7.5 優化理論方法
正如以上所述,人工神經網絡近年來已被廣泛應用于遙感圖像分類,其中應用最多、也是最成功的當數BP神經網絡及其變化形式。然而,傳統的BP神經網絡算法存在收斂速度慢、易陷入局部極小、隱層神經元數目難以確定等局限性,而且在地形條件、地物類型復雜地區應用成功的案例較少。為了得到更好遙感圖像分類效果,許多學者進行了大量研究。例如,柯華明在基于Matlab神經網絡和遺傳算法工具箱平臺下,用量化共軛梯度法改進標準BP算法,采用遺傳算法優化BP網絡的隱層神經元數目、初始權重,達到快速搜索網絡最優解、克服BP網絡局限性的目的,并以地形、地類復雜的香格里拉縣增強型專題繪圖儀(enhanced thematic mapper,ETM+)影像分類為例,在DEM地形數據輔助下,將傳統分類方法與GA優化的BP神經網絡分類進行比較,通過精度評價分析后者的有效性和優勢。
另一方面,各種聚類算法已經被廣泛用于圖像的自動分割,但是傳統的聚類算法缺乏對圖像空間特征和像素特征的綜合考慮,因而對噪聲十分敏感,計算效率不高,或者由于遙感圖像的數據量增大,計算速度慢。戴芹等人綜合和改進了前人提出的圖像分割方法,將GA和蟻群優化算法(ant colony optimization,ACO)組合對模糊聚類進行優化,在提取遙感圖像的灰度特征和空間特征進行聚類基礎上,引入圖像的像元灰度、像元鄰域灰度均值和像元灰度梯度三個特征,利用這些特征作為聚類依據,將圖像的多個特征結合到智能計算中,充分利用GA和ACO各自的優勢和特點,既提高了圖像分割的準確性,又加快了分割過程的速度。實驗結果表明,GA和ACO組合算法優化的模糊聚類是一種性能良好的遙感圖像分割方法。與此同時,隨著空間信息融合技術應用的日益廣泛,傳統算法的局限性也逐漸暴露出來,因此各種改進優化算法應運而生。多源信息融合是通過將多種信源在空間上和時間上的互補與冗余信息依據某種優化準則組合起來,產生對特定對象的一致性解釋與描述。
1.7.6 多源信息融合方法
1.多源信息融合理論方法體系
目前,多源異構是空間信息的基本特征之一,多源數據融合也成為大數據分析處理的關鍵環節,多源數據融合成為大數據領域重要的研究方向。中國計算機學會(China Computer Federation,CCF)大數據專家委員會秘書長程學旗在2014年大數據技術大會上發布了《中國大數據技術與產業發展白皮書(2014)》,對今后大數據發展趨勢進行預測,其概括為融合、跨界、基礎、突破,其中融合成為最為顯著的發展趨勢。“互聯網+”等概念的提出進一步表明了信息融合、產業融合、經濟融合等多維度融合是時代發展的要求,是順應大數據社會發展的必然。通過“互聯網+”的互動融合,可實現行業的模式轉變與效率提升。多源信息融合在大數據時代具有非常重要的價值與意義。通過多源信息融合,有利于進一步挖掘數據的價值,提升信息分析的作用;通過多源信息交叉印證,可以減少信息錯誤與疏漏,防止決策失誤??梢哉f,在大數據時代,融合成為一個重要的理念、一個廣泛滲透于各行業的現象、一種涉及多學科的新常態。本小節將簡單介紹北京大學信息管理系化柏林關于大數據環境下多源信息融合的理論方法。
大數據環境下的多源信息融合問題研究需要從理論、方法以及技術等視角思考,多源信息融合理論方法體系如圖1.10所示。該體系在理論層關注多元表示原理、相關性原理、意義構建等支撐理論;在方法層面涉及貝葉斯、D-S(DempsterShafer)證據理論、神經網絡等算法;在技術層面既涉及線上線下數據融合、傳感數據與社會數據融合等問題,也涉及唯一識別、異構加權等技術細節。

圖1.10 多源信息融合理論方法體系
2.多源信息融合理論
新的渠道、新的載體不斷產生新的數據類型;如何應對復雜多變的多源數據,成為大數據環境下一個重要的問題。想解決這個問題,就需要剖析信息融合的定義與內涵,進行多源信息融合的機制與機理的深入研究,探尋多源信息融合的本質與規律,從而解釋多源信息融合的現象,指導多源信息融合的實踐。
信息融合最早應用于軍事領域,后來在傳感器、地理空間等多個領域得到應用與發展。關于信息融合,主要有以下幾種定義:
(1)信息融合是一種多層次、多方面的數據處理過程,對來自多個信息源的數據進行自動檢測、關聯、相關、估計及組合等處理。
(2)信息融合是研究利用各種有效方法把不同來源、不同時間點的信息自動或半自動地轉換成一種能為人類或自動的決策提供有效支持的表示形式。
(3)信息融合是處理探測、互聯、估計以及組合多源信息和數據的多層次多方面過程,以便獲得準確的狀態和身份估計,完整而及時的戰場態勢和威脅估計。
(4)多源數據融合是指由不同的用戶、不同的來源渠道產生的,具有多種呈現形式(如數值型、文本型、圖形圖像、音頻視頻格式)且描述同一主題的數據為了共同的任務或目標融合到一起的過程。
這些研究反映了多源信息融合的含義或理念,系統的信息融合理論還不夠完善,探尋并借鑒已有的理論,對多源信息融合的現象進行解釋,已成為一項有重要意義的研究。這里從邏輯語義、語法結構以及形式表示三個方面進行闡述,在這個層面的理論基礎主要包括多元表示原理、相關性原理以及意義建構理論等,圖1.11所示為多源信息融合的支撐理論框架。不同的理論對多源信息融合有不同的支撐,多元表示更容易揭示多源信息的外部特征,是表現形式;相關性原理可以反映事物或事物要素及屬性之間的關聯關系,反映結構與關系;意義建構是在認知與語義的層面,反映內在邏輯。

圖1.11 多源信息融合的支撐理論框架
(1)多元表示原理
多元表示是信息活動中的一種普遍現象,存在于信息活動的各個環節和各個階段,這在互聯網環境下更加明顯,最為典型的就是大眾標簽;同樣的內容,不同的人標記的標簽就不一樣。多元表示包括來自于不同認知行動者解讀的在認知上不同的表示和來自于同一個認知行動者的在功能上不同的表示這兩種形式。從認知意義上來講,即便是同一組認知行動者在面對同一信息對象或情景時,其成員之間也可能會表現出認識上的不一致性或解釋上的多樣性。在眾籌、眾創時代,多元表示原理可以很好地揭示多源異構數據的多種表象,并尋找共同的語義內容與關聯。
(2)相關性原理
大數據分析比傳統的數據分析更加注重相關性。一方面,由于大數據具有數據規模體量大、多源異構等特點,進行簡單、直接的相關性分析比復雜的因果分析具有更高的計算效率;另一方面,通過對大數據的相關性分析,可以直接發現一些有用的關聯,如購物籃中的同被購買商品,足以提高經濟效益,沒必要非得弄清楚同被購買的原因。利用相關性,可以解決多源信息融合中的一些問題,包括主題相關、要素相關、任務相關及情境相關等。多源信息融合需要根據相關性原理,判定數據之間的相關關系與關聯程度,以及數據源與任務情境之間的相關性。
(3)意義建構理論
布倫達·德爾文(Brenda Dervin)于1972年提出以用戶為中心的意義建構理論,認為知識是主觀且由個人建構而成的,而信息尋求是一種主觀建構的活動,在線檢索的過程是一連串互動、解決問題的過程,是一種解釋溝通信息與意義之間關系的概念性工具。無論是認知層面的內在行為還是以過程為主體的外顯行為,都允許個體在空間和時間上設計或建造自己的行為。意義建構的行為是種溝通行為,而信息恰恰就是人與人之間的最有效溝通的載體形式。信息的產生、組織、加工、標引、檢索、傳播與利用等過程都涉及用戶的參與,而這些用戶參與的行為與表現可以用意義建構來解釋。根據皮亞杰的理論,人在與環境相互作用的過程中,不斷建構和修正原有的知識結構,不同的知識結構所決定的信息形式與內容就會不同,而意義建構理論有助于揭示不同數據源對任務目標的支撐作用。
3.多源信息融合方法與技術
有關多源數據融合的方法與技術,學界已有一些研究。B。Khaleghia等人對多源數據融合進行了全面的論述,包括數據融合的概念、價值、難點以及現有的方法。R.R.Yage使用投票的方法解決數據之間的沖突,提出一種多源數據融合的框架。F.Naumann等人認為需要通過模式匹配、重復偵測、數據融合三個步驟來解決多源數據的不一致性及其數據沖突問題。陳科文等人則從數據處理、系統設計、融合模型、融合方法等方面梳理當前多源信息融合的關鍵問題與應用進展。A.Marc等人用重組認知集成方法實現智能應用的高層次融合,通過定義一個由原語、功能和模型構建的涉及語義、時態和地理空間等多維信息的集成框架,在現有的信息融合模型之間實現橋接,提出了一套實現統一的高層次融合智能應用程序的方法,通過案例研究演示了在知識發現和預測精度改進方面的應用。
多源數據融合涉及很多具體的方法與技術,但這些技術、方法都是零散的,針對某個具體問題或應用場景的,不足以應對當前對多源、異構、跨界信息進行融合的需求。為了滿足多源信息融合的全面需求,就需要對這些方法、工具進行分析與試用,對各種技術方法的適用性、優缺點以及相互之間的關系等加以研究,從而形成多源信息融合的技術方法體系。
(1)多源信息融合表現形式
多源信息融合有多種來源與表現形式。在相關性、多元表示等原理的支撐下,多源信息融合有哪些形式與表征,也是重要的研究內容。在進行融合的過程中多源信息首先要轉化為機器可讀的數據,從數據的角度進行大規模的融合,其表現形式包括內部數據與外部數據的融合、歷史數據與實時數據的融合、線上數據與線下數據的融合、傳感數據與社會數據的融合。
①內部數據與外部數據的融合。從數據來源方面來講,數據分為企業內部數據與外部數據。內部數據一般是高質量的、與業務邏輯緊密聯系的;外部數據又包括可免費獲取的(如互聯網數據)以及購買或合作的數據。除了自身擁有的數據以外,在大數據環境下,還需要整合一些互聯網數據。
②歷史數據與實時數據融合。從時效性來看,經過多年的信息化,組織機構或企業已積累了相當數量的數據,新運行的系統與網絡又不斷產生新的數據,通過新數據可以監測實時狀態,縱觀歷史數據可以發現規律從而實現對未來的預測。僅有實時數據無法探其規律;僅有歷史數據也無法知其最新狀態;要想更好地發揮數據價值,既要重視歷史數據的累積與利用,又要不斷獲取鮮活的新數據。數據表示的是過去,但表達的是未來,只有把歷史數據與實時數據融合起來,才能通過歷史展望未來。
③線上數據與線下數據融合。隨著越來越多的傳統企業開始互聯網化,在原有的線下數據基礎上又產生了大量的線上數據,通過線上數據獲取實時狀態以及進一步完善線下數據,實現線上數據與線下數據的有效對接。過去傳統行業的領域知識是靠在行業內不斷摸爬滾打積累起來的,而互聯網化之后的行業領域知識將是從海量的用戶行為數據中分析和挖掘出來的。互聯網產業促進線上與線下融合發展,為信息融合提供新途徑和新模式。
④傳感數據與社會數據融合。傳感器、射頻、監控器以及其他通信設備每天產生大量的數據,這些“硬數據”以物理信號的形式傳到云端服務器上,一般具有良好定義的特征。社交網絡、經濟活動運行、政府信息管理又產生大量的社會數據,稱之為“軟數據”,是人為生成的或知識性的數據(如語言文字或圖形符號);這些數據帶有很大的不確定性和模糊性。物理信號數據反映機器設備運行的狀態,社會數據很好地反映了人們在社會運行中的各項活動。把這些信號數據與社會數據融合到一起,就可以更好地揭示自然規律與人類的各項活動。
(2)多源信息融合流程與技術
多源信息融合的實現包括數據級(信號級、像元級)融合、特征級融合和決策級融合等三個層次,這三個層次的融合分別是對原始數據、從中提取的特征信息和經過進一步評估或推理得到的局部決策信息進行融合。數據級和特征級融合屬于低層次融合,而高層次的決策級融合涉及態勢認識與評估、影響評估、融合過程優化等。H.V.Jagadish等人認為,在數據時代,很多人只注重“分析”和“建?!?,而忽略了其他步驟的重要性,如數據的清洗與融合。
融合的過程中有些共性的流程,也存在一些差異化的過程。針對每一步過程,有多種解決問題的方法,不同的方法又有著不同的技術實現。因此,有必要通過梳理多源信息融合的流程,總結多源信息融合的方法并集成多源信息融合技術,對各種技術工具進行比對與試用,分析技術工具之間的共性與優缺點,探討技術工具的集成與應用,形成多源信息融合的技術方法體系。
(3)多源信息融合算法
多源信息融合的算法包括簡單算法、基于概率論的方法、基于模糊邏輯的方法、混合方法以及AI算法等。簡單算法有等值融合法、加權平均法等?;诟怕收摰男畔⑷诤戏椒ㄓ胸惾~斯方法、D-S證據理論等,其中貝葉斯方法又包括貝葉斯估計、貝葉斯濾波和貝葉斯推理網絡等,而D-S證據理論是對概率論的推廣,既可處理數據的不確定性,也能應對數據的多義性?;谀:壿嫷男畔⑷诤戏椒?,如模糊集、粗糙集等方法,這些方法在處理數據的模糊性、不完全性和不同粒度等方面具有一定的適應性和優勢。混合方法包括模糊D-S證據理論、模糊粗糙集理論等,可以處理具有混合特性的數據。AI算法,如ANN,GA,ACO,深度學習算法等,可以處理不完善的數據,在處理數據的過程中不斷學習與歸納,把不完善的數據融合為統一的完善的數據。
4.多源數據融合模型
數據融合技術就是利用計算機對獲得信息在一定準則下加以自動分析和綜合的信息處理技術,以完成所需決策和評估任務,主要包括對各類信息源所給出有用信息的采集、傳輸、綜合、過濾、相關及合成,以便輔助人們進行態勢/環境判定、規劃、探測、驗證。信息的來源多,數據格式類別的差異較大,都給數據處理帶來了不便,故數據格式統一是進行數據處理的前提。

圖1.12 多源數據融合模型
多源信息融合能夠實現多源異構數據信息整合,對于充分利用信息資源、提高數據處理系統性能具有實用價值。作為數據級的多源數據融合模型結構如圖1.12所示。多源數據經過數據清理、數據集成、數據變換,形成有效數據,通過數據處理形 成了數據挖掘分析等處理工作所需的有效數據。
(1)數據清理是指去除源數據集中的噪聲數據和無關數據,處理遺留數據和清洗臟數據,去除數據域的知識背景上的白噪聲,考慮時間順序和數據變化等;主要內容包括處理噪聲數據、處理空值以及糾正不一致數據等。
(2)數據集成是將多文件或多數據庫運行環境中的異構數據進行合并處理,將多個數據源中的數據結合起來存放在一個一致的數據存儲區中。
(3)數據變換是將數據變換成統一的適合處理的形式,主要包括平滑、聚集、屬性構造、數據泛化和規范化等內容。
1.7.7 空間信息大數據
地球空間信息科學是測繪遙感科學與信息科學技術的交叉、滲透與融合,通過多平臺、多尺度、多分辨率、多時相的空、天、地對地觀測、感知和認知手段改善和提高人們觀察地球的能力,為人們全面精確判斷與決策提供大量可靠的時空信息。地球空間信息科學已在過去20多年的數字地球和數字城市建設中發揮了重要作用。當前,人類正進入建設智慧地球和智慧城市的大數據時代,這將對地球空間信息學提出新的要求,使之具有新的時代特點。這些特點可以概括為以下七個方面:
(1)無所不在。在大數據時代,地球空間信息科學的數據獲取將從空、天、地專用傳感器擴展到物聯網中上億個無所不在的非專用傳感器。例如智能手機,它就是一個具有通信、導航、定位、攝影、攝像和傳輸功能的時空數據傳感器;又如城市中具有空間位置的上千萬個視頻傳感器,它能提供PB和EB級[1]連續圖像。這些傳感器將顯著提高地球空間信息科學的數據獲取能力。另一方面,地球空間信息科學的應用也是無所不在的,它已從專業用戶擴大到全球大眾用戶。
(2)多維動態。大數據時代無所不在的傳感器網以日、時、分、秒甚至毫秒計產生時空數據,使得人們能以前所未有的速度獲得多維動態數據來描述和研究地球上的各種實體和人類活動。智慧城市需要從室外到室內、從地上到地下的真三維高精度建模,基于時空動態數據的感知、分析、認知和變化檢測在人類社會可持續發展中將發揮越來越大的作用。通過這些研究,地球空間信息科學將對PR和AI做出更大的貢獻。
(3)互聯網+網絡化。在越來越強大的天地一體化網絡通信技術和云計算技術支持下,地球空間信息科學的天、地、空專用傳感器將完全融入智慧地球的物聯網中,形成互聯網+空間信息系統,將地球空間信息科學從專業應用向大眾化應用擴展。原先分散的、各自獨立進行的數據處理、信息提取和知識發現等將在網絡上由云計算為用戶完成。目前,正在研究中的遙感云和室內外一體化高精度導航定位云就是其中的例子。
(4)全自動與實時化。在網絡化、大數據和云計算的支持下,地球空間信息科學有可能利用PR和AI的新成果來全自動和實時地滿足軍民應急響應和諸如飛機、汽車自動駕駛等實時的用戶要求。目前正在執行中的國家自然科學基金重大項目“空間信息網絡”,就是研究面向應急任務的空天信息資源自動組網、通信傳輸、在軌處理和實時服務的理論和關鍵技術。遵照“一星多用、多星組網、多網融合”的原則,由若干顆(60~80顆)同時具有遙感、導航、通訊功能的低軌衛星組成的天基網與現有地面互聯網、移動網整體集成,與北斗系統密切協同,實現對全球表面分米級空間分辨率、小時級時間分辨率的影像和視頻數據采集以及優于米級精度的實時導航定位服務。在時空大數據、云計算和天基信息服務智能終端支持下,通過天地通信網絡全球無縫的互聯互通,實時地為國民經濟各部門、各行業和廣大手機用戶提供快速、精確、智能化的定位、導航、授時、遙感及通信(positioning,navigation,timing,remote sensing,communication,PNTRC)服務,構建產業化運營的、軍民深度融合的我國天基信息實時服務系統。
(5)從感知到認知。長期以來,地球空間信息科學具有較強的測量、定位、目標感知能力,但往往缺乏認知能力。在大數據時代,通過對時空大數據的處理、分析、融合和挖掘,可以大大地提高空間認知能力。例如,利用多時相夜光遙感衛星數據可以對人類社會活動如城鎮化、經濟發展、戰爭與和平的規律進行空間認知。又如,利用智能手機中連續記錄的位置數據、多媒體數據和電子地圖數據,可以研究手機持有人的行為學和心理學。地球空間信息科學的空間認知將對腦認知和AI科學做出應有的貢獻。
(6)眾包與自發地理信息。在大數據時代,基于無所不在的非專用時空數據傳感器(如智能手機)和互聯網云計算技術,通過網上眾包方式,將會產生大量的自發地理信息來豐富時空信息資源,形成人人都是地球空間信息員的新局面,但因其非專業特點,使得所提供的數據具有較大的噪音、缺失、不一致、歧義等問題,造成數據有較大的不確定性,需要自動進行數據清理、歸化、融合與挖掘。當然,如能在網上提供更多的智能軟件和開發工具,將會產生更好的效果。
(7)面向服務。地球空間信息科學是一門面向經濟建設、國防建設和大眾民生應用需求的服務科學。它需要從理解用戶的自然語言入手,搜索可用來回答用戶需求的數據,優選提取信息和知識的工具,形成合理的數據流與服務鏈,通過網絡通信的聚焦服務方式,將有用的信息和知識及時送達給用戶。從這重意義上看,地球空間信息服務的最高標準是在規定的時間將所需位置上的正確數據/信息/知識送到需要的人手上。面向任務的地球空間信息聚焦服務將長期以來數據導引的產品制作和分發模式轉變成需求導引的聚焦服務模式,從而解決目前對地觀測數據的供需矛盾,實現服務代替產品,以適應大數據時代的需求。
空間數據具有數據體量大、多源、多時相、有價值等鮮明的大數據特征,其獲取手段多種多樣,如全球導航衛星、衛星重力探測、航空航天遙感等技術,這些技術手段獲取的空間數據格式不一、時相不一,導致了空間數據的來源多樣、結構復雜。面對大數據的到來,目前存在體量大、速度快、模態多樣和真偽難辨等問題,很難有效地從大數據中挖掘出它的巨大價值,從而形成數據海量、信息缺失、知識難覓的局面。因此,需要研究時空大數據多維關聯描述的形式化表達、關聯關系動態建模與多尺度關聯分析方法、時空大數據協同計算與重構所提供的快速準確的面向任務的關聯約束和空間大數據挖掘方法。
與此同時,空間數據是智慧地球的基礎信息,智慧地球功能的絕大部分將以空間數據為基礎。現在空間數據已廣泛應用于社會各行業、各部門,如城市規劃、交通、銀行、航空航天等。隨著科學和社會的發展,人們已經越來越認識到空間數據對于社會經濟的發展、人們生活水平提高的重要性,這也加快了人們獲取和應用空間數據的步伐。因此,在大數據時代的潮流下,空間大數據、時空大數據、遙感大數據、GIS大數據、地學大數據等大數據概念和技術相繼提出。如何利用大數據技術,如大數據存儲與管理、大數據計算模式及大數據可視化分析,去解決多源、多分辨率、多時相、多尺度的空間大數據面臨的問題和挑戰,是空間信息智能處理的研究重點。
大數據分析挖掘是指對規模巨大的數據進行分析挖掘。大數據可以概括為5個“V”——數據量(volume)、速度(velocity)、類型(variety)、價值(value)、真實性(veracity)。大數據作為時下信息技術行業最火熱的詞匯,隨之而來的有數據倉庫、數據安全、數據分析、數據挖掘等,這些詞圍繞大數據的商業價值的利用而逐漸成為行業人士爭相追捧的研究熱點與利潤焦點。大數據挖掘分析常和云計算聯系到一起,因為實時的大型數據集分析需要像Map Reduce一樣的框架向數十、數百或甚至數千的電腦分配工作,大數據技術架構示意圖如圖1.13所示。隨著智慧城市的建設和應用,無所不在的億萬個各類傳感器將產生越來越多的數據,數據量級將從現在的GB級和TB級逐步增長到PB級、EB級甚至ZB級[2]。如果能透徹分析這些結構復雜、數量龐大的數據,以云端運算整合分析,便能快速地將之轉化成有價值的信息,從中探索和挖掘出自然和社會的變化規律,人們的生活及行為,社會的潮流、思維和輿論趨向,推斷市場對產品、服務甚至政策等各方面的反應??傊?,利用大規模有效數據分析預測建模、可視化和發現新規律的時代就要到來。

圖1.13 大數據技術架構示意圖(彩色圖見插頁)
大數據分析挖掘工具通常包括兩類:一是用于展現分析的前端開源工具,如Jasper Soft,Pentaho,Spagobi,Openiu以及Birt等;二是用于展現分析商用分析工具,如Style Intelligence,Rapid Miner Radoop,Cognos,BO,Microsoft,Oracle,Microstrategy,Qlik View以及Tableau。國內也有商業數據處理(business data processing,BDP),如國云數據(大數據魔鏡)、思邁特以及FineBI等。
大數據分析挖掘數據倉庫有Teradata Aster Data,EMC Green Plum,HP Vertica等;大數據分析數據集市有QlikView,Tableau,Style Intelligence等。
大數據分析挖掘步驟通常包括以下六個基本方面:
(1)可視化分析(analytic visualization)。不管是對數據分析專家,還是對普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀地展示數據,讓數據自己說話,讓觀眾聽到結果。
(2)數據挖掘算法(data mining algorithm)。可視化是給人看的,數據挖掘是給機器“看”的。集群、分割、孤立點分析等,還有些其他的算法,可深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。
(3)預測性分析能力(predictive analytic capabilitiy)。數據挖掘可以讓分析員更好地理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
(4)語義引擎(semantic engine)。由于非結構化數據的多樣性帶來了數據分析的新挑戰,故需要一系列的工具去解析、提取及分析數據。語義引擎被設計成能夠從“文檔”中智能提取信息。
(5)數據質量和數據管理(data quality and master data management)。數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具,對數據進行處理可以保證得到高質量的分析結果。
(6)數據存儲與數據倉庫(data storaged and data warehouse)。數據倉庫是為了便于多維分析和多角度展示數據按特定模式進行存儲所建立起來的關系型數據庫。在商業智能系統的設計中,數據倉庫的構建是關鍵,是商業智能系統的基礎,承擔對業務系統數據整合的任務,為商業智能系統提供數據抽取、轉換和加載(extract-transformation-load,ETL),并按主題對數據進行查詢和訪問,為聯機數據分析和數據挖掘提供數據平臺。
大數據分析與數據挖掘的本質區別如表1.1所示:
表1.1 大數據分析與數據挖掘的本質區別

大數據的獲取、計算理論與高效算法的主要研究方向包括:大數據的復雜性與可計算性理論及簡約計算理論,大數據內容共享、安全保障與隱私保護,低能耗、高效大數據獲取機制與器件技術,異質跨媒體大數據編碼壓縮方法,大數據環境下的高效存儲訪問方法,大數據的關聯分析與價值挖掘算法,面向大數據的深度學習理論與方法,大數據的模型表征與可視化技術,大數據分析理解的算法工具與開放軟件平臺,存儲與計算一體化的新型系統體系結構與技術,面向大數據的未來計算機系統架構與模型等。
[1]1PB=250Byte(字節),1EB=1024PB=260Byte.
[2]1GB=230 Byte,1TB=240Byte,1ZB=270Byte.