- 智能制造系統(tǒng)及關(guān)鍵使能技術(shù)
- 唐敦兵等主編
- 1121字
- 2022-05-06 17:04:56
3.2 大數(shù)據(jù)的概念與特征
3.2.1 大數(shù)據(jù)的概念
目前的大數(shù)據(jù)定義是:表示數(shù)據(jù)集的一個術(shù)語,它代表的數(shù)據(jù)集在其運行時超過了傳統(tǒng)軟件的收集、管理和數(shù)據(jù)處理能力。大數(shù)據(jù)的主要特征是豐富的數(shù)據(jù)類型、大量的數(shù)據(jù)和廣泛的數(shù)據(jù)源。這也與現(xiàn)有的數(shù)據(jù)形式有所不同,當然在大數(shù)據(jù)領(lǐng)域也不僅僅只是大規(guī)模的數(shù)據(jù)和云計算的簡單運用,更是一種從種類繁多的海量數(shù)據(jù)中快速獲取有價值和有預(yù)見性信息的能力。根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,IDC)提出的定義,大數(shù)據(jù)的“4V”特征為:海量(Volume)、多樣性(Variety)、速度(Velocity)和價值(Value),如圖3-1所示。

圖3-1 大數(shù)據(jù)的“4V”特征
3.2.2 海量
當前人類社會正在經(jīng)歷“數(shù)據(jù)大爆炸”的時代,數(shù)據(jù)產(chǎn)生的速度和數(shù)量已經(jīng)大大超出了人類可控的范圍,因而,“數(shù)據(jù)爆炸”也就被稱之為大數(shù)據(jù)時代最鮮明的特征。從著名機構(gòu)IDC的預(yù)測中可以得知,人類社會的數(shù)據(jù)量以每年在前一年的基礎(chǔ)上增加一半數(shù)據(jù)量的速度增長,也就是說,每兩年人類社會產(chǎn)生的數(shù)據(jù)都會增加一倍,也稱之為“大數(shù)據(jù)摩爾定律”。
3.2.3 多樣性
多樣性指的是數(shù)據(jù)類型多樣,這里既包含傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),同時也包含了大量的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。而且,相較于傳統(tǒng)企業(yè)中的結(jié)構(gòu)化數(shù)據(jù),在大數(shù)據(jù)環(huán)境下有約20%的結(jié)構(gòu)化數(shù)據(jù)存儲在數(shù)據(jù)庫中,剩余的數(shù)據(jù)量則屬于互聯(lián)網(wǎng)上的數(shù)據(jù),如用戶數(shù)據(jù)、物聯(lián)網(wǎng)傳輸數(shù)據(jù)及社交數(shù)據(jù)等非結(jié)構(gòu)化和動態(tài)變化的數(shù)據(jù)。
(1)結(jié)構(gòu)化數(shù)據(jù),如企業(yè)內(nèi)部生成的數(shù)據(jù)等,主要包括在線交易數(shù)據(jù)和在線分析數(shù)據(jù)。這些數(shù)據(jù)通常是結(jié)構(gòu)化的靜態(tài)歷史數(shù)據(jù),可以通過關(guān)系數(shù)據(jù)進行管理和訪問。數(shù)據(jù)倉庫通常用于處理此數(shù)據(jù)。
(2)非結(jié)構(gòu)化數(shù)據(jù)包括所有格式的文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻信息等。
(3)半結(jié)構(gòu)化數(shù)據(jù)介于前兩者數(shù)據(jù)類型之間,具有自描述性,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容混在一起。
3.2.4 速度
龐大的數(shù)據(jù)量需要相匹配的計算分析速度,目前已經(jīng)有許多的機構(gòu)和公司設(shè)計了相應(yīng)的計算分析系統(tǒng),應(yīng)用最為廣泛的是集群處理和獨特的內(nèi)部設(shè)計方法。以Google公司的Dremel為例,這是一個可拓展和可實時交互的大數(shù)據(jù)查詢系統(tǒng),可以用于分析嵌套數(shù)據(jù),在結(jié)合多級樹狀圖執(zhí)行過程及列式數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,它可以在幾秒內(nèi)將萬億張表進行聚合查詢,同時可以在大規(guī)模的CPU上進行擴展,以滿足用戶操作PB級(1PB=1024TB)數(shù)據(jù)的需求。
3.2.5 價值
價值也是衡量數(shù)據(jù)的一個標準。就價值密度而言,大數(shù)據(jù)的價值密度是比較低的。原因在于大數(shù)據(jù)時代,有價值的信息是夾雜在海量的數(shù)據(jù)庫中的。然而要從海量的數(shù)據(jù)庫中獲取相應(yīng)有價值的信息需要對所有的數(shù)據(jù)進行分析處理,這就需要耗費大量的社會資源,如就監(jiān)控系統(tǒng)而言有用的信息可能只存在于其中的幾幀,但卻需要監(jiān)控系統(tǒng)不間斷運作才可以記錄到這幾幀。因而,盡管大數(shù)據(jù)看上去前景很好,但是其價值密度卻遠低于傳統(tǒng)關(guān)系型的數(shù)據(jù)庫。
- Splunk 7 Essentials(Third Edition)
- Visual FoxPro 6.0數(shù)據(jù)庫與程序設(shè)計
- 數(shù)據(jù)產(chǎn)品經(jīng)理:解決方案與案例分析
- 自主研拋機器人技術(shù)
- 西門子S7-200 SMART PLC實例指導(dǎo)學與用
- 機器學習流水線實戰(zhàn)
- Java Web整合開發(fā)全程指南
- 計算機與信息技術(shù)基礎(chǔ)上機指導(dǎo)
- Visual FoxPro程序設(shè)計
- 云計算和大數(shù)據(jù)的應(yīng)用
- HBase Essentials
- 機器學習案例分析(基于Python語言)
- Red Hat Enterprise Linux 5.0服務(wù)器構(gòu)建與故障排除
- Windows 7來了
- 天才與算法:人腦與AI的數(shù)學思維