官术网_书友最值得收藏!

1.3.1 大數(shù)據(jù)的定義

1.三類(lèi)定義

當(dāng)前大數(shù)據(jù)在各個(gè)領(lǐng)域的廣泛普及使得學(xué)界與業(yè)界對(duì)大數(shù)據(jù)的定義很難達(dá)成一致。不過(guò)有一點(diǎn)共識(shí)是,大數(shù)據(jù)不僅是指大量的數(shù)據(jù)。文獻(xiàn)[47]通過(guò)對(duì)現(xiàn)有大數(shù)據(jù)的定義進(jìn)行梳理,總結(jié)出了三種對(duì)大數(shù)據(jù)進(jìn)行描述和理解的定義。

(1)屬性型定義(attributive definition)

作為大數(shù)據(jù)研究與應(yīng)用的先驅(qū),國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)在戴爾易安信(DELL EMC)公司的資助下于2011年提出了如下大數(shù)據(jù)的定義[48]:“大數(shù)據(jù)技術(shù)描述了技術(shù)與體系結(jié)構(gòu),其設(shè)計(jì)初衷是通過(guò)實(shí)施高速的捕獲、發(fā)現(xiàn)以及分析,來(lái)經(jīng)濟(jì)性地提取大量具有廣泛類(lèi)型的數(shù)據(jù)的價(jià)值。”該定義側(cè)面描述了大數(shù)據(jù)的四個(gè)顯著特征:數(shù)量、速度、多樣化和價(jià)值。由Gartner公司分析師Doug Laney總結(jié)的研究報(bào)告[49]中給出了與上述定義類(lèi)似的描述,該研究指出數(shù)據(jù)的增長(zhǎng)所帶來(lái)的挑戰(zhàn)與機(jī)遇是三個(gè)維度的,即顯著增長(zhǎng)的數(shù)量(Volume)、速度(Velocity)和多樣化(Variety)。盡管Doug Laney關(guān)于數(shù)據(jù)在三個(gè)維度的描述最初并不是要給大數(shù)據(jù)下定義,但包括IBM[50]、微軟[51]在內(nèi)的業(yè)界在其后的十年間都沿用上述“3V”模型來(lái)對(duì)大數(shù)據(jù)進(jìn)行描述。

(2)比較型定義(comparative definition)

Mckinsey公司2011年給出的研究報(bào)告[52]將大數(shù)據(jù)定義為“規(guī)模超出了典型數(shù)據(jù)庫(kù)軟件工具的捕獲、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集”。盡管該報(bào)告沒(méi)有在具體的度量標(biāo)準(zhǔn)方面對(duì)大數(shù)據(jù)給出定義,但其引入了一個(gè)革命性的方面,即怎樣的數(shù)據(jù)集才能夠被稱(chēng)為大數(shù)據(jù)。

(3)架構(gòu)型定義(architectural definition)

美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)對(duì)大數(shù)據(jù)的描述為:“大數(shù)據(jù)是指數(shù)據(jù)的數(shù)量、獲取的速度以及數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)方法進(jìn)行有效分析的能力,需要使用具有良好可擴(kuò)展性的新型方法來(lái)對(duì)數(shù)據(jù)進(jìn)行高效的處理。”[53]

2.5V

文獻(xiàn)[54]將大數(shù)據(jù)描述為具有以下特征的數(shù)據(jù):“數(shù)據(jù)的規(guī)模成為問(wèn)題的一部分,并且傳統(tǒng)的技術(shù)已經(jīng)沒(méi)有能力處理這樣的數(shù)據(jù)。”文獻(xiàn)[55]將大數(shù)據(jù)描述為具有以下特征的數(shù)據(jù):“數(shù)據(jù)的規(guī)模迫使學(xué)界和業(yè)界不得不拋棄曾經(jīng)流行的方法而去尋找新的方法。”文獻(xiàn)[56]認(rèn)為大數(shù)據(jù)是一個(gè)囊括了在合理時(shí)間內(nèi)對(duì)潛在的超大數(shù)據(jù)集實(shí)現(xiàn)捕獲、處理、分析和可視化的范疇,并且傳統(tǒng)的信息技術(shù)無(wú)法勝任上述要求。文獻(xiàn)[57]指出,大數(shù)據(jù)的核心必須包含三個(gè)關(guān)鍵的方面:數(shù)量多、速度快和多樣化,即著名的“3V”。

(1)數(shù)量

數(shù)據(jù)的數(shù)量又稱(chēng)為數(shù)據(jù)的規(guī)模,在大數(shù)據(jù)中,其是指在進(jìn)行數(shù)據(jù)處理時(shí)所面對(duì)的超大規(guī)模的數(shù)據(jù)量。目前,海量的數(shù)據(jù)持續(xù)不斷地從千百萬(wàn)設(shè)備和應(yīng)用中產(chǎn)生(例如信息通信技術(shù)、智能手機(jī)、軟件代碼、社交網(wǎng)絡(luò)、傳感器以及各類(lèi)日志)。McAfee公司在2012年估算[58]:在2012年的每一天中,全球都產(chǎn)生著2.5EB的數(shù)據(jù),并且該數(shù)值約每40個(gè)月實(shí)現(xiàn)翻倍。2013年,國(guó)際數(shù)據(jù)公司(IDC)估算全球所產(chǎn)生、復(fù)制和消費(fèi)的數(shù)據(jù)已經(jīng)達(dá)到4.4ZB,并且該數(shù)值約每?jī)赡陮?shí)現(xiàn)翻倍。文獻(xiàn)[59]指出,到2015年,全球產(chǎn)生的數(shù)據(jù)將達(dá)到8ZB。根據(jù)IDC的研究報(bào)告,全球產(chǎn)生的數(shù)據(jù)將在2020年達(dá)到40ZB[60]

(2)速度

在大數(shù)據(jù)中,數(shù)據(jù)的速度是指在進(jìn)行數(shù)據(jù)處理時(shí)所面對(duì)的具有高頻率和高實(shí)時(shí)性的數(shù)據(jù)流。高速生成的數(shù)據(jù)應(yīng)當(dāng)及時(shí)進(jìn)行處理,以便提取有用的信息和洞察潛在的價(jià)值。文獻(xiàn)[61]指出,全球知名的折扣連鎖店沃爾瑪基于消費(fèi)者的交易每小時(shí)產(chǎn)生2.5PB的數(shù)據(jù)。視頻分享類(lèi)網(wǎng)站(例如優(yōu)酷、愛(ài)奇藝等)則是大數(shù)據(jù)高頻率和高實(shí)時(shí)性特征的另一個(gè)例證。

(3)多樣化

在大數(shù)據(jù)中,數(shù)據(jù)的多樣化是指在進(jìn)行數(shù)據(jù)處理時(shí)所面對(duì)的具有不同語(yǔ)法格式的數(shù)據(jù)類(lèi)型。隨著物聯(lián)網(wǎng)技術(shù)與云計(jì)算技術(shù)的普及,海量的多源異構(gòu)數(shù)據(jù)從不同的數(shù)據(jù)源以不同的數(shù)據(jù)格式持續(xù)地產(chǎn)生,典型的數(shù)據(jù)源有傳感器、音頻、視頻、文檔等。海量的異構(gòu)數(shù)據(jù)形成各種各樣的數(shù)據(jù)集,這些數(shù)據(jù)集可能包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)集的屬性可能是公開(kāi)或隱私的、共享或機(jī)密的、完整或不完整的,等等。

文獻(xiàn)[62][63]指出,隨著大數(shù)據(jù)理論的發(fā)展,更多的特征逐步被納入考慮的范圍,以便對(duì)大數(shù)據(jù)做出更好的定義,例如:想象(vision),這里的想象是指一種目的;驗(yàn)證(verification),這里的驗(yàn)證是指經(jīng)過(guò)處理后的數(shù)據(jù)符合特定的要求;證實(shí)(validation),這里的證實(shí)是指前述的想象成為現(xiàn)實(shí);復(fù)雜性(complexity),這里的復(fù)雜性是指由于數(shù)據(jù)之間關(guān)系的進(jìn)化,海量數(shù)據(jù)的組織和分析均很困難;不變性(immutability),這里的不變性是指如果進(jìn)行妥善管理,那么經(jīng)過(guò)存儲(chǔ)的海量數(shù)據(jù)可以永久保留。文獻(xiàn)[64]給出了描述大數(shù)據(jù)的五個(gè)關(guān)鍵特征(即“5V”):數(shù)量(Volume)、速度(Velocity)、多樣化(Variety)、準(zhǔn)確性(Veracity)和價(jià)值(Value)。

(4)準(zhǔn)確性

在商界,決策者通常不會(huì)完全信任從大數(shù)據(jù)中提取出的信息,而會(huì)進(jìn)一步對(duì)信息進(jìn)行加工和處理,然后做出更好的決策。如果決策者不信任輸入數(shù)據(jù),那么輸出數(shù)據(jù)也不會(huì)獲得信任,這樣的數(shù)據(jù)不會(huì)參與決策過(guò)程。隨著大數(shù)據(jù)中數(shù)據(jù)規(guī)模的日新月異和數(shù)據(jù)種類(lèi)的多樣化,如何更好地度量和提升數(shù)據(jù)可信度成為一個(gè)研究熱點(diǎn)。

(5)價(jià)值

一般來(lái)說(shuō),海量的數(shù)據(jù)具有價(jià)值密度低的缺點(diǎn)。如果無(wú)法從數(shù)據(jù)中有效地提取出潛在的價(jià)值,那么這些數(shù)據(jù)在某種程度上就是沒(méi)用的。數(shù)據(jù)的價(jià)值是決策者最關(guān)注的方面,其需要仔細(xì)且認(rèn)真的研究。目前,已經(jīng)有大量的人力、物力和財(cái)力投入到大數(shù)據(jù)的研究和應(yīng)用中,這些投資行為都期望從海量數(shù)據(jù)中獲得有價(jià)值的內(nèi)容。但是,對(duì)于不同的機(jī)構(gòu)和不同的價(jià)值提取方法,同樣的數(shù)據(jù)集所產(chǎn)生的價(jià)值差異可能很大,即投入與產(chǎn)出并不一定成正比。因此,對(duì)大數(shù)據(jù)價(jià)值的研究需要建立更加完善的體系。

主站蜘蛛池模板: 屯昌县| 昌邑市| 郓城县| 略阳县| 高要市| 栾川县| 封丘县| 醴陵市| 奉化市| 静乐县| 河津市| 宜州市| 乌兰察布市| 夏河县| 鄄城县| 蛟河市| 尚志市| 嘉善县| 两当县| 鄄城县| 大庆市| 七台河市| 马边| 航空| 修文县| 阿拉尔市| 阜新| 怀来县| 巴里| 思南县| 浦江县| 乐东| 贡嘎县| 宁城县| 巴青县| 东辽县| 岳池县| 比如县| 东安县| 津南区| 凤台县|