1.3 大數據結構類型
1.大數據存儲容量
大數據的存儲結構小到以字節來表示,大到NB和DB級別。以210逐級增長。下面表示的是數據由小到大的尺寸和存儲容量。最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(210)來計算。
1KB(KiloByte)=210B
1MB(MegaByte)=210KB
1GB(GigaByte)=210MB=220KB=230B
1TB(TeraByte)=210GB=220MB=230KB=240B
1PB(PetaByte)=210TB=220GB=230MB=240B=250B
1EB(ExaByte)=210PB=220TB=230GB=240MB=250KB=260B
1ZB(ZettaByte)=210EB=220PB=230TB=240GB=250MB=260KB=270B
1YB(YottaByte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B
1NB(NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B
1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B
一方面,數據規模的“存量”和“增量”在快速增長。另一方面,人們缺乏對 “大數據”的開發利用能力。大數據爆發式的增長情況如表1-5所示。
表1-5 大數據在各行業增長

2.大數據結構特征
數據的結構化程度直接關系到處理數據的方法選擇。傳統的和經典的數據都是結構化的,這些數據存儲在數據庫中,采用相應的數據庫技術完成查詢和管理需要。而半結構和非結構的數據,就是今天網頁和社交媒體產生的大量音頻和視頻等數據。數據的結構特征可總結為如表1-6所示。
表1-6 大數據結構特征

3.數據的復雜性與多樣性
(1)數據的復雜性
復雜數據在可以“成熟的”分析和可視化之前需要額外的準備工作。因此重要的是,通過了解數據的復雜程度及它在未來的復雜性趨向,來評估大數據/商業智能項目是否能夠勝任這一任務。多重數據源通常意味著臟數據,或者遵循著不同的內部邏輯結構的、簡單的多個數據集。為了確保數據源有統一的數據語言,數據必須被轉換或整合到一個中央資源庫。數據的復雜性表現為處理大數據或異構數據。
(2)數據的多樣性
文本一直是非結構化數據的典型。早期的非結構化數據,在企業數據的語境里主要是文本,如電子郵件、文檔和健康/醫療記錄等。隨著互聯網和物聯網的發展,又擴展到網頁、社交媒體、感知數據,涵蓋音頻、圖片、視頻和模擬信號等,真正詮釋了數據的多樣性。
從另一個維度上看,數據的多樣性又表現在數據來源和用途上。衛生保健數據大致有藥理學科研數據,臨床數據,個人行為和情感數據,以及就診/索賠記錄和開銷數據4類。又如交通領域,北京市交通智能化分析平臺數據源來自路網攝像頭/傳感器、地面公交、軌道交通、出租車,以及省際客運、旅游、化學危險品運輸、停車和租車等運輸行業,還有問卷調查和GIS數據。例如,面對共享單車治理難題,幾個車企都提出“大數據”管理思路,并認為將是未來管理的方向。在ofo廣州總部,通過大數據管理可以清楚看到每一輛“小黃車”所在位置和編號、每個網格的車輛數量、區域車輛的活躍程度等,車輛數量隨著活躍程度的增加,在屏幕上顯示由綠色轉成紅色。圖1-8所示為不斷增長的數據多樣性與復雜性。

圖1-8 不斷增長的數據多樣性與復雜性
- ArchiCAD 19:The Definitive Guide
- Windows XP中文版應用基礎
- 數據庫原理與應用技術學習指導
- 大數據技術入門(第2版)
- Data Wrangling with Python
- 視覺檢測技術及智能計算
- 讓每張照片都成為佳作的Photoshop后期技法
- 走近大數據
- Salesforce for Beginners
- LMMS:A Complete Guide to Dance Music Production Beginner's Guide
- 嵌入式Linux系統實用開發
- 筆記本電腦使用與維護
- 網絡信息安全項目教程
- 菜鳥起飛五筆打字高手
- ROS Robotics By Example(Second Edition)