CHAPTER 1
第1章
數據可視化概述
1.1 可視化簡介
1.1.1 可視化的意義
人類主要依靠視覺、聽覺、味覺等途徑來獲取外在世界的信息,而視覺是最重要的途徑之一。視覺是指通過人眼來感知外在世界,同時接收和處理外界信息。雖然人眼具有高帶寬的并行處理能力,對于一般的數字、文本等符號能夠達到較好的識別效果,但是人眼對可視化符號的感知速度更快,而且有助于人類進行潛意識加工[1]。通常,人類執行高效搜索的過程只能保持幾分鐘,并且信息越豐富,越容易耗費大量的注意力。通過可視化手段可以保存待處理信息,彌補人腦有限記憶的不足,同時也能吸引關注,高效傳遞信息。
1.1.2 可視化的功能
可視化(Visualization)是一種利用圖形進行信息交流的方法表示[2]。可視化過程是指將復雜的信息以圖形的形式呈現出來,讓這些信息更容易、更快速地被人理解。因此,它也是一種放大人類感知的圖形化表示手段[3]。可視化技術是對所需表達內容進行可視化表達以增強認知的技術。
通常,可視化具有以下幾個功能。
1.信息記錄與保存
古今中外,草圖是記錄與保存大量歷史信息的最好方式。最早,古人采用結繩記事,通過在不同粗細的繩子上結成不同距離、不同大小的結來記錄事物。雖然結繩記事的方式不能直接反映出記錄的事物,但通過結法、結的大小、距離大小以及繩子粗細可以表達出不同的信息。草圖不僅能直觀地描述事物,如達·芬奇對人頭蓋骨的可視化,而且多幅連續漸變的圖能反映事物周期變化,如伽利略關于月亮周期的繪圖。當然,現代的繪畫和圖形圖像形式更為多樣,內容更為豐富,能更加詳細地記錄歷史信息的方方面面。
2.信息推理與分析
可視化能擴充人腦記憶,幫助人腦形象地理解和分析任務,顯著提升信息分析的效率。將信息以可視化的形式呈現給受眾,可以引導受眾通過可視化結果進行合理的推理和分析,進而得到有用的信息。這種直觀的信息感知機制,大大降低了受眾對對象感知和理解的復雜程度。如湖泊藻類生長的可視化場景,能幫助受眾理解藻類蔓延的路徑和速度等信息,以輔助分析消除和控制藻類蔓延的關鍵點和時長等。
3.信息傳播與擴散
一般認為,“百聞不如一見”“一圖勝千言”,可視化圖形能簡潔明了地讓受眾理解并傳播信息,也能抓住受眾“眼球”,對信息進行擴散。例如,在數字經濟蓬勃發展的當下,電子商務平臺充分使用圖片和視頻等可視化形式展示和推廣商品,如在酒店產品及服務的在線展示中,一張好的圖片或一段視頻展示勝過長篇的文字性介紹。
1.1.3 可視化的分類
可視化的目標在于幫助感知者洞悉蘊藏于事物中的知識和規律。從展示時間變化來看,可視化可分為動態和靜態的形式;從展示形式來看,可視化可分為直接和間接的形式;從信息傳遞方式來看,可視化可分為探索性和解釋性的形式。
1.從展示時間變化來看
(1)動態可視化。動態可視化是隨時間流動而改變形態的可視化形式,通過動態的圖像和視頻等方式展示。這種動態方式可以呈現出信息隨時間的變化,用幀的形式進行可視化對象的形態展示,即動態成像方式。隨著幀數變多,動態變化越細致,時間粒度越小,就形成了一種動畫或視頻的可視化展示方式。動態可視化的表現形式豐富多樣,具有極強的包容性,也可以采用多種形式混搭,尤其隨著交互技術的出現,可以以交互形式進行動態可視化展示。
(2)靜態可視化。靜態可視化是對對象的某一個時間點上的形態、屬性等方面進行展示,相當于動態可視化某一時刻點上的一個截面,可以通過圖、表或混合的方式進行展示。其中:圖形可以展示對象的形態,如線條型、平面圖、立體圖、多維空間圖等;表格可以用于展示對象的多個屬性和內容,如二維表、三維表、多維表等;圖表或者圖文等混合方式結合了圖形、表格、文字等多方面的優勢,可以綜合展示對象的形態、屬性等。
2.從展示形式來看
(1)直接可視化。直接可視化是將對象表面的屬性和內容進行直接展示,能最直接表現出對象的原始形態和特征,讓受眾獲得最直觀的印象。這種形式通常利用圖、表等直接輸出,技術上比較容易實現且成本較低。
(2)間接可視化。相比于直接可視化,間接可視化是將對象部分屬性進行合并或者變換以展示對象的某些特點或者特征。屬性合并是將對象的多個屬性用一個屬性進行替代,以達到降維的目的,如將多個成績用平均績點或者成績等級來替換。屬性變換是將對象的屬性數據類型或者取值進行某種變換,如將字符型變換成數值型,將百分制成績分數變換為績點等。
3.從信息傳遞方式來看
(1)探索性可視化。有時候,觀察者不容易直接從對象的屬性和內容中獲取所需要的信息,但是可以通過可視化的手段進行呈現和展示,以輔助發現對象的特征、趨勢或異常,如罪犯特征、犯罪時間趨勢等。這種可視化技術通常配合數據挖掘技術一起運用。
(2)解釋性可視化。解釋性可視化是一種在視覺呈現階段,依據已知的信息或知識,以可視化的方式將它們傳遞給受眾的形式。相比于探索性可視化,解釋性可視化更為直觀,但表達的潛在信息相對較少。
1.1.4 可視化的發展史[4]
1.17世紀前:早期地圖與圖表
最早的可視化萌芽出現在幾何圖、恒星和其他天體的位置表,以及幫助導航和探索的地圖制作中。公元前200年,古埃及的測量師在規劃城鎮時使用了坐標的概念,地球和天體的位置也是由類似于經緯度的符號確定的。

圖1-1 勻加速公式

圖1-2 勻加速運動構形
14世紀,尼科爾·奧雷斯姆(Nicole Oresme)提出了關聯值制表和繪制值的想法,隨后不久尼科爾提出了距離與速度的理論圖,即勻加速定理,如圖1-1和圖1-2所示。
到了16世紀,精確觀測和測量物理量、地理位置及天體位置的技術和儀器得到了很好的發展。1617年,斯涅耳(W.Snell)首創三角測量法(見圖1-3),此后繪制地圖的視覺呈現方式更加精確。這些早期探索構成了可視化的開端。

圖1-3 三角測量法
2.17世紀:幾何學與坐標系
到了17世紀,最重要的問題之一是與時間、距離和空間的物理測量有關的問題。在使用測量和估計誤差理論以及概率論等理論解決這些問題的同時,誕生并發展了幾何學和坐標系等可視化方法。
3.18世紀:新的圖形形式
到了18世紀,隨著統計理論的發展,收集重要數據的基礎逐漸完善以及圖形表示思想的逐漸確立,制圖者開始嘗試在地圖上顯示新的數據表示,等高線和等值線由此被發明。物理量的專題映射也在此階段建立完成。到了18世紀末,首次地質、經濟和醫學數據專題制圖嘗試成功。
4.19世紀上半葉:現代圖形的開端
隨著之前設計和技術創新的發展,到了19世紀上半葉,統計圖形和專題制圖出現了爆炸式增長。在統計圖形學中,條形圖、柱形圖、線形圖和時間序列圖、等高線圖、散點圖等所有的現代數據顯示形式都被發明了。專題地圖學中的地圖是從單一地圖發展而來的,綜合地圖集則描繪了經濟、社會、道德等各種數據主題,并介紹了各樣新穎的象征形式。在此期間,描述和分析天氣、潮汐等自然和物理現象的圖形也開始出現在科學出版物上,圖1-4為1833年出版的利茲霍亂地圖。

圖1-4 1833年出版的利茲霍亂地圖
5.19世紀下半葉:統計圖形的黃金時代
到了19世紀下半葉,可視化技術發展的所有條件都已經建立起來了。人們認識到數字信息對社會規劃、工業化、商業和運輸的重要性,歐洲各國紛紛設立國家統計局。為理解大量數據,高斯和拉普拉斯開創了統計理論,并由格雷和奎特萊特擴展到社會領域。19世紀下半葉可謂可視化發展的黃金時代。
6.20世紀上半葉:現代黑暗時代
到了20世紀初,圖形創新很少;20世紀30年代中期,社會科學中量化和統計模型的興起取代了19世紀末人們對可視化的熱情。對可視化的發展來說,這是一個必要的休眠期、應用期和普及期,而不是創新期。在這一時期,統計圖形成為主流,圖解法也進入了英語教科書。
7.20世紀下半葉:新的曙光
隨著計算機科學和技術的發展,數據可視化具有了新的活力,人們可以利用計算機技術在電腦屏幕上繪制出各種圖形及圖表,可視化技術開啟了全新的發展階段。20世紀70年代至80年代,人們開始嘗試將靜態數據用多維定量數據的靜態圖來表示;20世紀80年代中期,動態統計圖表開始出現。20世紀末,靜態統計圖和動態統計圖開始逐漸結合,試圖實現動態的交互式可視化。
8.21世紀:數據可視化
21世紀,隨著現代互聯網技術的飛速發展,人們開始將可視化技術和數據挖掘、計算機圖形學等結合起來,借助HTML5、JavaScript等技術動態地、可交互地展示高維數據,輔助用戶將紛繁復雜甚至不完整的數據進行數據可視化,以便快速挖掘出有用的信息、做出決策,并形成了可視分析學這門新的學科。