- 大數據導論(第2版)
- 楊尊琦主編
- 1526字
- 2023-06-28 15:35:36
1.3 大數據結構類型
大數據結構類型包括結構化、半結構化和非結構化。本節將依次介紹大數據存儲容量、大數據結構特征、大數據的數據類型、數據的復雜性和多樣性。
1.大數據存儲容量
大數據的存儲結構小到以字節表示,大到NB和DB級別。以210逐級增長。數據最小的基本單位是bit,按順序給出所有單位:bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(210)來計算:
1KB(KiloByte)=210B
1MB(MegaByte)=210KB
1GB(GigaByte)=210MB=220KB=230B
1TB(TeraByte)=210GB=220MB=230KB=240B
1PB(PetaByte)=210TB=220GB=230MB=240B=250B
1EB(ExaByte)=210PB=220TB=230GB=240MB=250KB=260B
1ZB(ZettaByte)=210EB=220PB=230TB=240GB=250MB=260KB=270B
1YB(YottaByte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B
1NB(NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B
1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B
一方面,數據規模的“存量”和“增量”在快速增長。另一方面,人們缺乏對“大數據”的開發利用能力。大數據爆發式的增長情況如表1-5所示。
表1-5 大數據在各行業爆發式的增長情況

2.大數據結構特征
數據的結構化程度直接關系到處理數據的方法選擇。傳統和經典的數據是結構化的,這些數據存儲在數據庫中,采用相應的數據庫技術完成查詢和管理需要。而半結構和非結構的數據,就是今天的網頁和社交媒體產生的大量音頻和視頻等數據。大數據的結構特征說明如表1-6所示。
表1-6 大數據的結構特征說明

3.數據類型
變量是用來存儲數據值的所在處,它有名稱和數據類型。而變量的數據類型決定了如何將代表這些值的位存儲到計算機的內存中。數據類型是指變量值的不同類型,例如,姓名是一種數據類型,年齡可能是另外一種數據類型,愛好可能又是另一種數據類型。在計算機語言中,數據的類型可分為基本數據類型和引用數據類型,這里僅簡單介紹幾種基本數據類型。常用的基本數據類型有數值型、字符型和布爾型。
1)數值型數據(Metric Data)是按數字尺度測量的觀察值,其結果表現為具體的數值。現實中所處理的大多數數據都是數值型數據。數值型數據又可分為兩大類:整數類型和浮點類型。整數類型有字節(byte)、整型(int)。浮點類型有單精度浮點型(float)和雙精度浮點型(double)。
2)字符型數據(Character Data)是不具有計算能力的文字型數據類型,用字母C表示。它包括中文字符、英文字符、數字字符和其他的ASCII字符。其長度(即字符個數)范圍是0~255。
3)布爾型數據(Boolean Data)是編程語言Pascal、VB、C++等的一種變量類型。布爾型數據的取值只有兩個:false(假)和true(真)。false取值為0,true取值為1。
表1-7所示為這幾種數據類型的介紹。
表1-7 數據類型介紹

4.數據的復雜性與多樣性
(1)數據的復雜性
復雜數據在可以“成熟地”分析和可視化之前需要額外的準備工作。因此重要的是,通過了解數據的復雜程度以及它在未來的復雜性趨向,來評估大數據/商業智能項目是否能夠勝任這一任務。多重數據源通常意味著臟數據,或者遵循著不同的內部邏輯結構的簡單的多個數據集。為了確保數據源有統一的數據語言,數據必須被轉換或整合到一個中央資源庫。數據的復雜性表現為處理大數據或異構數據。
(2)數據的多樣性
文本一直是非結構化數據的典型。早期的非結構化數據,在企業數據的語境里主要是文本,如電子郵件、文檔、健康/醫療記錄。隨著互聯網和物聯網的發展,又擴展到網頁、社交媒體、感知數據,涵蓋音頻、圖片、視頻、模擬信號等,真正詮釋了數據的多樣性。
從另一個維度上看,數據的多樣性又表現在數據來源和用途上。例如,衛生保健數據大致有藥理學科研數據、臨床數據、個人行為和情感數據、就診/索賠記錄和開銷數據4類;而在交通領域,北京市交通智能化分析平臺數據來自路網攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化學危險品運輸、停車、租車等運輸行業,還有問卷調查和GIS數據。從數據體量和速度上也達到了大數據的規模:4萬輛浮動車每天產生2000萬條記錄;交通卡刷卡記錄每天產生1900萬條;手機定位數據每天產生1800萬條;出租車運營數據每天產生100萬條等。圖1-11所示為不斷增長的數據多樣性與復雜性。

圖1-11 不斷增長的數據多樣性與復雜性
- 車用電機原理及應用(第2版)
- 設計美學
- 寫作與語言教程
- 實用服裝立體裁剪(第2版)
- 福建師范大學外國語學院211翻譯碩士英語[專業碩士]歷年考研真題及詳解
- 廣告英語
- 2020年貨幣銀行學考研真題(含復試)與典型題詳解[附贈兩套模擬試題]
- 應用文寫作技能與規范(慕課版)
- 2020年西藏自治區選聘大學生村官考試《行政職業能力測驗》題庫【真題精選+章節題庫+模擬試題】
- 中外鞋履文化
- 數據結構
- 服裝電子商務
- 鄒為誠《綜合英語教程(1)》(第3版)學習指南【詞匯短語+課文精解+全文翻譯+練習答案】
- Altium Designer 18印制電路板設計實用教程
- 黑龍江大學俄語學院《俄語6》(全新版)學習指南【詞匯短語+課文精解+全文翻譯+練習答案】