書名：大數據時代的互聯網架構設計
作者名：劉輝
本章字數： 15字
更新時間： 2019-12-05 15:53:28

第二章大數據處理流程與系統架構

第一節大數據處理流程

傳統的互聯網與商業數據的存儲和處理主要使用關系型數據庫技術，數據庫企業巨頭Oracle是這一時期的代表企業。隨著大數據時代的到來，傳統關系數據庫在可擴展性方面的缺陷逐漸暴露出來，即使采用并行數據庫集群，最多也只能管理一百臺左右的機器，而且這種并行數據庫要有高配置的服務器才可正常運轉，可以想象其管理海量數據的成本有多高。

很多應用場景，尤其是互聯網相關應用，并不像銀行業務等對數據的一致性有很高的要求，它們更看重數據的高可用性以及架構的可擴展性等技術因素，因此NoSQL數據庫應運而生。作為適應不同應用場景要求的新型數據存儲與處理架構，它對傳統數據庫有很強的補充作用，而且應用場景更加廣泛。Yahoo公司部署了包含4000臺普通服務器的Hadoop集群，可以存儲和處理高達4PB的數據，整個分布式架構具有非常強的可擴展性。NoSQL數據庫的廣泛使用代表了一種技術范型的轉換。

大數據處理的目標是從海量異質數據中挖掘知識，處理過程包含數據源收集、數據存儲管理、數據分析與挖掘以及數據展現與獲取等幾個按順序進行的步驟。圖2-1是大數據處理流程的整體架構。從圖中可看出，在大數據處理的過程中，形成了數據流處理的多個不同層次。

圖2-1 大數據處理流程的整體架構

一、數據的產生

在一些人的觀念里，大數據和大型企業如百度、騰訊、阿里巴巴這些互聯網巨頭才有關系，而與中小型企業似乎關系不大。這其實是一個誤區，本書作者認為無論是大型企業還是中小型企業，都與大數據有關。任何一個企業只要將日常點點滴滴的數據，如一個文件、一張照片、一段講話都集中存儲起來，就能夠為企業的統計、分析、決策提供數據依據。這些集中起來的數據都可以被稱為大數據。對于智慧經濟時代中的企業而言，大數據就是要讓企業自覺地將數據看成一種資產、一種能力，不是單單在“大”上做文章，而是強調企業應依據數據來做判斷和決策，促進企業從“粗放經營”模式向“智慧經營”模式轉變。

觀念轉變了，那么企業的大數據來源就不言自明了。它可以來源于企業現有的信息系統、企業每一個員工的工作終端和工作用的手機、企業的客戶、網絡上對企業的各種評論，以及與企業相關的工商、稅務、電信、電力等方面的信息。企業的大數據，按來源途徑可分為主體、客體和社會三種。

（一）來自主體的大數據

這里的主體包括企業管理者、企業員工、企業客戶、企業的協同單位、企業的競爭對手、企業上級管理部門、企業與社會公共服務組織（如電力、電信、銀行等部門）、企業的信息系統等。企業的信息系統是一個重要的主體，它記錄了企業在業務行為過程中的詳細信息，是企業大數據的主要來源。除了企業的信息系統之外，其他主體產生的信息往往是被企業忽視的部分，在企業建立大數據系統時，這部分被忽視的信息是需要被重視起來的。

企業管理者產生的信息包括企業的規劃、計劃、總結、報告等信息，這些信息有一些是被存儲在信息系統中的，也有很多只是存儲在企業管理者的個人電腦上的。這些信息往往對統計分析具有很大價值，所以企業需要建立一套在線的文檔管理系統把這些信息管理起來。

企業員工產生的信息包括工作總結、個人隨想、個人議論，以及工作時的照片、圖片等，這些信息大多存儲在個人電腦上，或是個人的博客、微博、QQ等外部的信息系統中。企業競爭對手的信息一般都會被重點研究，但研究手段大多比較落后或不夠體系化。競爭對手的信息可以來自其自身網站或其他媒體，企業需要建立采集機制，將競爭對手的信息分門別類地存放起來并在工作中加以應用。

社會公共服務組織如電力、電信、銀行、水務等部門，都是與企業經營有直接和間接關系的組織。這些組織提供的信息有時會非常重要，比如，一個客戶的經營情況好不好，可以直接通過這個客戶的電費單、話費單來找到答案。這些部門的網站上都有一些對客戶的這方面信息的披露，所以通過技術手段獲取此類信息對分析客戶的經營情況具有一定的幫助。

上面對各個主體的大數據的分析，可以在企業進行大數據建設時提供一種獲取數據來源的思路，企業還可以按照這種分析方式進一步擴展獲取大數據的渠道，以使大數據的來源更加完整和全面。

（二）來自客體的大數據

這里的客體主要是指企業生產的產品。未來的產品大多都會具有物聯功能，企業根據這些物聯功能發回的信息，就可以分析出該產品當前在哪里、運行狀態如何、哪些功能是用戶常用的，并可以依據這些分析制定客戶的服務策略、新產品的改進策略等。企業的產品按照是否能主動回傳信息，可以分為有源產品和無源產品。

有源產品是指有動力來源的產品，一般多為電器設備，如電冰箱、電視機、ATM機、刷卡設備等。這些產品可以內嵌信息發送設備，從而將產品的位置、狀態、操作行為等信息，傳送回企業，以便企業進行相應的分析。這些發送回的信息可以是結構化的或者是半結構化的，基于精度設計要求其信息計量單位可大可小，如高清的攝像頭，其每次回傳的信息量就非常大，可以是幾兆字節或者更大。這些信息發送的頻度都是預先設置的，可以為每秒幾十幀或者是幾秒一幀，在一段時間內可以產生大量的信息，所以對于有源產品產生的信息，需要在數據存儲上做單獨的設計。

無源產品是指沒有動力來源的產品，一般多為衣物、藥品、食品等。對于無源產品，一般是將電子標簽貼在產品的表面，借助有源設備來進行信息的采集。無源產品雖不像有源產品那樣會實時產生大量的信息，但由于其數量龐大，同樣也會產生大量的信息。依據有源設備采集的無源產品信息，可以知道產品當前的位置信息和時間信息，從而可以統計產品的地域分布和使用狀態。

（三）來自社會的大數據

這里的社會主要是指行業協會、媒體、社會公眾等。這些組織或群體主要是站在全局角度、公眾角度和個人角度對企業的各類事項進行統計、分析和評論的，往往會對社會公眾、企業形象的認知起導向作用。一個企業會因為一個好評而得到社會公眾的認同，從而迅速發展，也會因為一個差評而遭受滅頂之災。

行業協會一般都是一些半官方機構，每年會定期發布一些行業發展中存在的問題和未來發展趨勢的報告。這些報告具有較高的價值，對企業研究行業動態、找準企業自身在行業中的地位極有幫助。這部分信息是企業應該重點關注并作為大數據的一個重要構成部分的。

媒體也是一個重要的大數據來源渠道。媒體會對企業、企業的產品、消費者的訴求等各方面給出評論，這些評論對企業來說至關重要。有一些媒體報道是客觀的，也有一些是主觀的。關注這些媒體的報道可以讓企業提前做好各種應急措施，以便在事件發生時占據主動權。

社會公眾可以在QQ、微信、微博、博客、論壇等公眾媒體上進行各種信息的傳播，這些媒體的影響面非常廣泛。企業應高度關注與企業相關的信息，并建立相應的機制，對信息進行分類處理。未來企業在經營活動中，不僅要善于利用新媒體進行企業品牌和產品的宣傳，而且還要學會如何對這些信息進行統計和分析。因此社會公眾的信息采集也是企業搜集大數據的重要手段。

二、數據的存儲

企業的各類數據集中起來后，其數據量龐大。和以往統一將這些數據集中存放在一個大的磁盤陣列中不同，現在需要將它們存儲在多臺計算機上，這是因為這些數據不僅要存起來，還要能隨時被使用。采用分布式方式將這些大數據存放在計算機設備上，以便可同時在多臺計算機上對其進行并行處理。按照數據的結構不同，可以將大數據分為非結構化的大數據、結構化的大數據和半結構化的大數據，分布式文件系統、分布式數據庫系統和數據流處理系統分別是針對這三類數據的存儲方式。

（一）非結構化數據存儲

常見的非結構化數據包括文件、圖片、視頻、語音、郵件、聊天記錄等，和結構化數據相比，這些數據是未抽象出有價信息的數據，需要經二次加工才能得到有價信息。由于非結構化數據具有不受格式約束、不受主題約束、人人隨時都可以根據自己的視角和觀點進行創作生產的特點，所以其數據量要比結構化數據大。

隨著各種移動終端的普及和移動應用的不斷豐富，非結構化數據呈指數態迅速增長。近年來，這些數據已成為統計分析和數據挖掘的一個重要來源，逐漸被越來越多的企業所重視。比如，在公安領域，隨著“平安城市”工程的不斷推進，城市的各個角落都安放著攝像頭，這極大地震懾了犯罪分子，預防了犯罪行為的發生。在案件發生后，公安人員可以根據攝像頭拍攝的圖像信息還原犯罪分子的活動軌跡和使用的作案兇器，有助于對案件的偵辦。再如，在金融領域，為了控制借款人可能產生的借貸風險，很多金融企業建立了專門的隊伍收集借款人的財務信息、法務信息、法人信息等，并對這些信息進行分析，根據分析結果調整風險等級，主動避免風險。

非結構化數據對各行各業的價值都極大，所以進行有針對性的采集和存儲是一件非常有意義的事。由于非結構化數據具有形式多樣、體量大、來源廣、維度多、有價內容密度低、分析意義大等特點，所以要為了分析而存儲，而不能為了存儲而存儲。為了分析而存儲，就是說存儲的方式要滿足分析的要求，存儲工作就是分析的前置工作。當前針對非結構化數據的特點，均采用分布式方式來存儲這些數據。這種存儲非結構化數據的系統也叫分布式文件系統。

分布式文件系統將數據存儲在物理上分散的多個存儲節點上，對這些節點的資源進行統一管理與分配，并向用戶提供文件系統訪問接口，主要解決本地文件系統在文件大小、文件數量、打開文件數等方面的限制問題。目前常見的分布式文件系統通常包括主控服務器（或稱元數據服務器、名字服務器等，通常會配置備用主控服務器，以便在出故障時接管服務）、多個數據服務器（或稱存儲服務器、存儲節點等），以及多個客戶端（客戶端可以是各種應用服務器，也可以是終端用戶）。

分布式文件系統的數據存儲解決方案歸根結底是將大問題劃分為小問題。大量的文件均勻分布到多個數據服務器上后，每個數據服務器存儲的文件數量就少了。另外，通過使用大文件存儲多個小文件的方式，能把單個數據服務器上存儲的文件數降到符合單機能處理的規模；對于很大的文件，可以將其劃分成多個相對較小的片段，存儲在多個數據服務器上。

（二）結構化數據存儲

結構化數據就是人們熟悉的數據庫中的數據，它本身就已經是一種對現實已發生事項的關鍵要素進行抽取后的有價信息。現在各級政府和各類企業都建有自己的信息管理系統，隨著時間的推移，其積累的結構化數據越來越多，一些問題也顯現出來，這些問題大致可以分為以下四類：

（1）歷史數據和當前數據都存在于一個庫中，導致系統處理越來越慢；

（2）歷史數據與當前數據的期限如何界定；

（3）歷史數據應如何存儲；

（4）歷史數據的二次增值如何解決。

第一和第二個問題可以放在一起處理。系統處理越來越慢的原因除了傳統的技術架構和當初建設系統的技術滯后于業務發展之外，主要是對于系統作用的定位問題。從過去40年管理信息系統發展的歷史來看，隨著信息技術的發展和信息系統領域的不斷細分，是時候要分而治之來處理問題了，即將管理信息系統分成兩類，一類是基于目前的數據生產管理信息系統，另一類是基于歷史的數據應用管理信息系統。

數據生產管理信息系統是管理一段時間頻繁變化數據的系統，這個“一段時間”可以根據數據增長速度而進行界定，比如，銀行的數據在當前生產系統中一般保留儲戶一年的存取款記錄。數據應用管理信息系統將數據生產管理信息系統的數據作為處理對象，是數據生產管理信息系統各階段數據的累加存儲的數據應用系統，可用于對歷史數據進行查詢、統計、分析和挖掘。

第三和第四個問題可以放在一起處理。由于歷史數據量規模龐大，相對穩定，其存儲和加工處理與數據生產管理系統的思路應有很大的不同。和非結構化數據存儲一樣，結構化數據的存儲也是為了分析而存儲，并且采用分布式方式。其目標有兩個：一是能在海量的數據庫中快速查詢歷史數據，二是能在海量的數據庫中進行有價信息的分析和挖掘。

分布式數據庫是數據庫技術與網絡技術相結合的產物，在數據庫領域已形成一個分支。分布式數據庫的研究始于20世紀70年代中期。世界上第一個分布式數據庫系統SDD-1是由美國計算機公司（CCA）于1979年在DEC計算機上實現的。20世紀90年代以來，分布式數據庫系統處于商品化應用階段，傳統的關系數據庫產品均發展成以計算機網絡及多任務操作系統為核心的分布式數據庫產品，同時分布式數據庫逐步向客戶機/服務器模式發展。

分布式數據庫系統通常使用體積較小的計算機系統，每臺計算機可單獨放在一個地方，每臺計算機中都有DBMS（Database Management System，數據庫管理系統）的一份完整的副本，并具有自己局部的數據庫。位于不同地點的許多計算機通過網絡互相連接，共同組成一個完整的、全局的大型數據庫。

分布式數據庫系統應具有以下一些主要特點：

（1）物理分布性：數據不是存儲在一個場地上，而是存儲在計算機網絡的多個場地上；

（2）邏輯整體性：數據物理分布在各個場地，但邏輯上是一個整體，它們被所有的用戶（全局用戶）共享，并由一個主節點統一管理；

（3）靈活的體系結構，適應分布式的管理和控制機構；

（4）數據冗余度小，系統的可靠性高，可用性好；

（5）可擴展性好，易于集成現有的系統。

（三）半結構化數據存儲

半結構化數據是指數據中既有結構化數據，也有非結構化數據。比如，攝像頭回傳給后端的數據中不僅有位置、時間等結構化數據，還有圖片這種非結構化數據。這些數據是以數據流的形式傳遞的，所以半結構化數據也叫流數據。對流數據進行處理的系統叫作數據流系統，數據流系統是隨著物聯網技術的不斷發展而產生的新的信息領域。

隨著物聯網技術的發展，人們對產品這一客體的智能化程度的要求越來越高。產品已經由一個不能產生數據的物品變成了一個可以產生數據的物品，原來只能通過人機交互產生數據，現在物聯交互也能產生大量的數據，并且物聯交互產生的數據比人機交互產生的數據頻度更高、單位時間內的數據量更大。物聯交互不僅帶來了新的數據來源，而且帶來了新的數據處理問題。比如，大量涌入的物聯數據在很長一段時間內都是重復的數據，如果將這些數據原封不動地進行存儲，那么其消耗的存儲設備容量將是驚人的，也是資金投入所不能承受的。

對于數據流，數據不是永久存儲在傳統數據庫中的靜態數據，而是瞬時處理的源源不斷的連續數據流。因此，對這種新型數據模型的處理應用也逐漸引起了相關領域研究人員的廣泛關注。在大量的數據流應用系統中，數據流來自分布于不同地理位置的數據源，非常適合分布式查詢處理。

分布式處理是數據流管理系統發展的必然趨勢，而查詢處理技術是數據流處理中的關鍵技術之一。在數據流應用系統中，系統的運行環境和數據流本身的一些特征不斷地發生變化，因此，對分布式數據流自適應查詢處理技術的研究成為數據流查詢處理技術研究的熱門領域之一。

三、數據的分析與挖掘

傳統的管理信息系統可以定位為面向個體信息生產，供局部簡單查詢和統計應用的信息系統。其輸入是個體少量的信息，處理方式是在系統中對移動數據進行加工，輸出是個體信息或某一主題的統計信息。而大數據信息系統定位為面向全局，提供復雜統計分析和數據挖掘的信息系統。其輸入是TB級的數據，處理方式是移動邏輯到數據存儲、對數據進行加工，輸出是與主題相關的各種關聯信息。對比這兩個信息系統，可以發現它們主要有以下三點區別：

（1）傳統的管理信息系統用于現實事項的數據生產，大數據信息系統是基于已有數據的應用的；

（2）傳統的管理信息系統是對移動數據做線性處理，大數據信息系統是應用移動邏輯來并行處理的；

（3）傳統的管理信息系統注重信息的簡單應用，大數據信息系統面向全局做統計分析和數據挖掘應用。

傳統的管理信息系統和大數據信息系統的對比如表2-1所示。

表2-1 傳統的管理信息系統和大數據信息系統對比

前文分析了大數據從哪里來、存在于哪里等問題，本節又分析了傳統的管理信息系統與大數據信息系統的不同之處。正是這些不同之處決定了企業大數據的加工過程的不同。大數據的加工首先從分析和挖掘模型建立開始，也就是說，要先弄清楚想要什么，采用什么計算方法；其次將分析和挖掘模型轉成邏輯可移動并能并行處理的程序編碼，以便對分布式的大數據進行加工；最后將計算結果放在全局數據背景中呈現，讓用戶能基于圖形一眼看出其態勢，而非采用面對結構化數字的晦澀的表達。企業大數據加工過程模型如圖2-2所示。

圖2-2 企業大數據加工過程模型

大數據加工過程由分析和挖掘模型設計、并行處理程序編碼、計算結果在全局中呈現三個工作活動構成。

（一）分析和挖掘模型設計

“大數據”，大約從2009年開始才成為互聯網信息技術行業的流行詞匯。美國互聯網數據中心指出，互聯網上的數據每年將增長50%，每兩年會翻一番，而目前世界上90%以上的數據是最近幾年才產生的。此外，數據又并非單純地指人們在互聯網上發布的信息。全世界的工業設備、汽車、電表等裝有無數的數碼傳感器，隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質變化方面的信息，同時也產生了海量的數據。

大數據已經在那里了，人們能用它做什么？一些互聯網企業開始利用手中掌握的大數據，對用戶的消費習慣、興趣愛好、關系網絡進行分析和挖掘，分析和挖掘的成果給這些互聯網企業帶來了新的價值。

（1）進一步鞏固優勢：基于分析結果給用戶提供更精準的服務，進一步拉開與競爭對手的差距。

（2）擴展了新的服務：社會化媒體基礎上的大數據挖掘和分析又衍生出很多新的應用。

（3）拓展了新的領域：基于手中的大數據和已掌握的分析方法，一些互聯網企業正在成為營銷咨詢服務商和各類情報供應商。

互聯網企業的這種發展模式，對于很多傳統企業具有很強的借鑒意義。它告訴人們不僅要掌握龐大的數據信息，而且要對這些具有意義的數據進行專業化處理。專業的處理方法包括統計建模、機器學習、數據建模等。

（1）統計建模是利用統計知識，認為大數據是遵循總體分布規律的，按照統計的方法可以準確地把握企業當前的態勢，并可以按照時間維度預測企業未來的發展。

（2）機器學習是將大數據當成訓練集，通過貝葉斯網絡、支持向量機、決策樹等算法對有價值的信息進行挖掘，比如，Netflix通過機器學習來預測觀眾對影片的評分，從而制定影片上映和發行的策略。

（3）數據建模是將數據模型看成一個復雜查詢的答案，利用部分數據來推算總體的態勢。數據建模可以采用兩種方法：一種是數據匯總，另一種是特征提取。數據匯總包括PageRank形式和聚類形式，特征提取包括頻繁項集和相似項兩種類型。

上述方法中，前兩種方法分別把大數據看成了總體樣本數據和局部訓練數據。基于總體樣本數據可以做出準確的態勢分析和對未來的預測，而基于局部訓練數據則可以面向未來做出假說演繹。最后一種方法，數據建模，是一種基于現有數據分析問題的方法。比如，PageRank可以根據用戶請求返回用戶期望度最高的頁面，再如，采用聚類方法可以準確定位城市某種流行病的發源地及其原因。

總的來說，利用分析和挖掘模型設計，一來可以得到總體在空間上的分布狀態和時間上的變化趨勢，以便面向未來做出預測；二來可以通過個體在空間和時間上的差異與相似性，找出問題的原因，以便做出決策。

（二）并行處理程序編碼

并行處理程序編碼是一項很復雜的工作，但隨著技術的發展和開源運動的不斷普及，這項復雜的工作已經變得非常簡單。人們只需按照MapReduce編程模型編程，并將程序發布到并行計算系統上，就可以實現對大數據的并行處理。為了能夠更深入地理解并行處理程序，這里有必要簡要回顧一下集群計算的并行架構、MapReduce編程模型、函數代碼與模型設計關系、移動邏輯還是移動數據這四個方面的知識。

1．集群計算的并行架構

大部分計算任務都是在單處理器、內存、高速緩存和本地磁盤等所構成的單個計算節點上完成的。傳統的并行化處理應用都是采用專用的并行計算機來完成的，這些計算機含有多個處理器和專用硬件。然而隨著近年來大規模Web服務的流行，越來越多的計算都是在由成百上千的單個計算節點構成的集群上完成的。與采用專用硬件的并行計算機相比，這大大降低了硬件開銷。

集群計算是遵循“分而治之、以量取勝”的思想來架構的，也就是把多個任務分解到多個處理器或多個計算機中，然后按照一定的拓撲結構進行求解。這種架構是一種時間并行和空間并行混合的應用模式，是各種并行模式中效益最好的一種。當前集群計算的并行架構已廣泛應用在天氣預報建模、超大規模集成電路（Very Large Scale Integrated Circuit, VLSI）的計算機輔助設計、大型數據庫管理、人工智能、犯罪控制和國防戰略研究等領域，而且它的應用范圍還在不斷地擴大。

2.MapReduce編程模型

現在MapReduce編程模型已經有多種實現系統，如Google和Hadoop各自開發的MapReduce的實現系統。人們可以通過某個MapReduce的實現系統來管理多個大規模的計算，同時能夠保障對硬件故障的容錯性。程序員只需要編寫兩個稱為Map和Reduce的函數即可，剩下的就是由系統來管理Map和Reduce的并行任務及其任務間的協調。基于MapReduce的計算過程如下。

（1）有多個Map任務，每個任務的輸入是分布式文件上的一個或多個文件塊。Map任務將文件轉換成一個鍵值（Key-Value）對序列。輸入數據產生的鍵值對的具體格式由用戶編寫的Map函數代碼決定。

（2）作業控制器從每個Map任務中收集一系列鍵值對，并將它們按照鍵值的大小進行排序，進而這些鍵又被分到所有的Reduce任務中，所以具有相同鍵值的鍵值對會歸到同一個Reduce任務中。

（3）Reduce任務每次作用于一個鍵，并將與這些鍵關聯的所有值以某種方式進行組合，具體組合方式取決于用戶所編寫的Reduce函數代碼。

3．函數代碼與模型設計關系

Map函數的輸入數據產生的鍵值對格式和Reduce函數的鍵值組合方式都由用戶所編寫的函數代碼決定，而這些函數代碼采用的格式或組合的依據就是分析和挖掘模式設計中的具體內容。

比如，人們設計一個關于文檔中單詞重復數量的計算模型，在Map算法中，模型的要求是基于每一行對單詞進行一次計數，然后將同樣的單詞計數進行歸類，而在Reduce算法中則要求對同樣的單詞進行總和計算并給出排序。程序員根據模型的要求，實現Map算法中對每一行單詞進行計數和將同樣的單詞計數進行歸類的程序編碼，實現Reduce函數中對同樣的單詞進行總和計算并給出排序的編碼。

可以說，分析和挖掘模型的設計就是Map和Reduce的函數概要設計，而Map函數和Reduce函數是分析和挖掘模型設計的代碼的具體實現。

4．移動邏輯還是移動數據

移動邏輯還是移動數據是對數據可變還是邏輯可變的另一種表述。如果數據是可變的，那么就移動邏輯到數據端處理；如果邏輯可變，則移動數據到邏輯端處理。對于數據或邏輯的不變性認知是分布式系統和非分布式系統的核心區別。MapReduce主張邏輯不變而數據可變，所以移動邏輯到可變的數據端中；而傳統的管理信息系統主張邏輯可變而數據不變，所以移動數據到可變的邏輯端中。

大數據運算的一個思路就是傳遞邏輯，而不傳輸數據。這一思路依賴的條件是邏輯的子過程的分拆是可能的、可控的。在類似MapReduce的方案中，MapReduce Jobs的執行就具有類似的特點。也就是說，必須關注這樣一個事實：數據不動，而邏輯在動。

（三）計算結果在全局中的呈現

用戶經常會根據不夠精確的、模糊的或者是不能表達出的條件對大型文件集合進行探索或查詢，如果還是采用樹形目錄方式，其查詢效率和效果是可想而知的。為了解決這個問題，奧地利Graz大學為大型文檔庫設計了一個名為Infosky的可視化工具。Infosky可視化工具可以對存放層次達15層、有6900個類別的10多萬份文件進行展現，用戶可以借助該系統輕松地對層次結構中成百上千甚至上百萬的文件進行可視化查看，也可以平滑地引入信息空間的全局和局部視圖，為瀏覽和搜索提供明確易懂的交互信息。而這一切的實現借助的正是信息可視化這一新的計算機科學技術。

近年來，隨著大數據的興起，用戶面臨著信息過載的嚴峻考驗。如何幫助用戶更快捷有效地從大量數據中提取出有用的信息，成為信息可視化的核心任務。信息可視化主要是利用圖形技術對大規模數據進行可視化表示，以增強用戶對數據更深層次的認知。信息可視化由數據描述、數據表示和數據交互三個部分構成。數據描述就是對各種數據進行視覺化的描述，如采用不同的線條、點和叉等。數據表示關注的是描述的內容如何得到顯示，及其如何呈現給用戶，數據表示會受到顯示空間的限制和時間的限制。數據交互涉及一系列動作，不僅包括單擊鼠標的物理動作，還包括對所見進行解釋，增加了心理模型的認知成本。

上面的實例分析和對信息可視化技術的簡單介紹主要是想說明在大數據環境下，數據的表現方式需要在傳統的單一表格和圖表方式基礎上再提升一個層次，要能讓用戶基于圖示感受到大數據的存在，感受到其查詢的部分與整體間的關系。

官术网_书友最值得收藏!

大數據時代的互聯網架構設計

第二章 大數據處理流程與系統架構

第一節 大數據處理流程