官术网_书友最值得收藏!

3.2 大數(shù)據(jù)的概念與特征

3.2.1 大數(shù)據(jù)的概念

目前的大數(shù)據(jù)定義是:表示數(shù)據(jù)集的一個術(shù)語,它代表的數(shù)據(jù)集在其運行時超過了傳統(tǒng)軟件的收集、管理和數(shù)據(jù)處理能力。大數(shù)據(jù)的主要特征是豐富的數(shù)據(jù)類型、大量的數(shù)據(jù)和廣泛的數(shù)據(jù)源。這也與現(xiàn)有的數(shù)據(jù)形式有所不同,當然在大數(shù)據(jù)領(lǐng)域也不僅僅只是大規(guī)模的數(shù)據(jù)和云計算的簡單運用,更是一種從種類繁多的海量數(shù)據(jù)中快速獲取有價值和有預(yù)見性信息的能力。根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,IDC)提出的定義,大數(shù)據(jù)的“4V”特征為:海量(Volume)、多樣性(Variety)、速度(Velocity)和價值(Value),如圖3-1所示。

圖3-1 大數(shù)據(jù)的“4V”特征

3.2.2 海量

當前人類社會正在經(jīng)歷“數(shù)據(jù)大爆炸”的時代,數(shù)據(jù)產(chǎn)生的速度和數(shù)量已經(jīng)大大超出了人類可控的范圍,因而,“數(shù)據(jù)爆炸”也就被稱之為大數(shù)據(jù)時代最鮮明的特征。從著名機構(gòu)IDC的預(yù)測中可以得知,人類社會的數(shù)據(jù)量以每年在前一年的基礎(chǔ)上增加一半數(shù)據(jù)量的速度增長,也就是說,每兩年人類社會產(chǎn)生的數(shù)據(jù)都會增加一倍,也稱之為“大數(shù)據(jù)摩爾定律”。

3.2.3 多樣性

多樣性指的是數(shù)據(jù)類型多樣,這里既包含傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),同時也包含了大量的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。而且,相較于傳統(tǒng)企業(yè)中的結(jié)構(gòu)化數(shù)據(jù),在大數(shù)據(jù)環(huán)境下有約20%的結(jié)構(gòu)化數(shù)據(jù)存儲在數(shù)據(jù)庫中,剩余的數(shù)據(jù)量則屬于互聯(lián)網(wǎng)上的數(shù)據(jù),如用戶數(shù)據(jù)、物聯(lián)網(wǎng)傳輸數(shù)據(jù)及社交數(shù)據(jù)等非結(jié)構(gòu)化和動態(tài)變化的數(shù)據(jù)。

(1)結(jié)構(gòu)化數(shù)據(jù),如企業(yè)內(nèi)部生成的數(shù)據(jù)等,主要包括在線交易數(shù)據(jù)和在線分析數(shù)據(jù)。這些數(shù)據(jù)通常是結(jié)構(gòu)化的靜態(tài)歷史數(shù)據(jù),可以通過關(guān)系數(shù)據(jù)進行管理和訪問。數(shù)據(jù)倉庫通常用于處理此數(shù)據(jù)。

(2)非結(jié)構(gòu)化數(shù)據(jù)包括所有格式的文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻信息等。

(3)半結(jié)構(gòu)化數(shù)據(jù)介于前兩者數(shù)據(jù)類型之間,具有自描述性,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容混在一起。

3.2.4 速度

龐大的數(shù)據(jù)量需要相匹配的計算分析速度,目前已經(jīng)有許多的機構(gòu)和公司設(shè)計了相應(yīng)的計算分析系統(tǒng),應(yīng)用最為廣泛的是集群處理和獨特的內(nèi)部設(shè)計方法。以Google公司的Dremel為例,這是一個可拓展和可實時交互的大數(shù)據(jù)查詢系統(tǒng),可以用于分析嵌套數(shù)據(jù),在結(jié)合多級樹狀圖執(zhí)行過程及列式數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,它可以在幾秒內(nèi)將萬億張表進行聚合查詢,同時可以在大規(guī)模的CPU上進行擴展,以滿足用戶操作PB級(1PB=1024TB)數(shù)據(jù)的需求。

3.2.5 價值

價值也是衡量數(shù)據(jù)的一個標準。就價值密度而言,大數(shù)據(jù)的價值密度是比較低的。原因在于大數(shù)據(jù)時代,有價值的信息是夾雜在海量的數(shù)據(jù)庫中的。然而要從海量的數(shù)據(jù)庫中獲取相應(yīng)有價值的信息需要對所有的數(shù)據(jù)進行分析處理,這就需要耗費大量的社會資源,如就監(jiān)控系統(tǒng)而言有用的信息可能只存在于其中的幾幀,但卻需要監(jiān)控系統(tǒng)不間斷運作才可以記錄到這幾幀。因而,盡管大數(shù)據(jù)看上去前景很好,但是其價值密度卻遠低于傳統(tǒng)關(guān)系型的數(shù)據(jù)庫。

主站蜘蛛池模板: 淄博市| 中超| 滨海县| 富民县| 隆安县| 夏邑县| 定襄县| 剑川县| 荃湾区| 密云县| 天门市| 广安市| 崇礼县| 海城市| 黄石市| 长兴县| 洛浦县| 松阳县| 丹江口市| 科尔| 乐平市| 石狮市| 乌鲁木齐市| 九龙坡区| 康乐县| 静海县| 大洼县| 华亭县| 重庆市| 察隅县| 夏河县| 铜鼓县| 柏乡县| 伊金霍洛旗| 团风县| 安塞县| 沅陵县| 阳曲县| 巴青县| 德兴市| 天镇县|