官术网_书友最值得收藏!

大數(shù)據(jù)處理的特征

隨著數(shù)據(jù)日積月累,需求的應(yīng)用場(chǎng)景也會(huì)越來(lái)越豐富。那么,大數(shù)據(jù)到底是如何被處理的呢?對(duì)很多人來(lái)說(shuō),大數(shù)據(jù)只是一個(gè)概念,而工程師面對(duì)的卻是待解決的實(shí)際問(wèn)題。他們需要解決這些問(wèn)題,至于是不是用大數(shù)據(jù)的方式,一開始未必就能確定。也許他們一開始并沒(méi)有意識(shí)到需要用大數(shù)據(jù)。當(dāng)他們發(fā)現(xiàn):我的天啊!數(shù)據(jù)怎么這么多!我的程序跑個(gè)基本處理竟然要五個(gè)小時(shí)!這時(shí),就該大數(shù)據(jù)出馬了。

當(dāng)你發(fā)現(xiàn),需要解決的問(wèn)題具備幾個(gè)共同特征,那么這個(gè)問(wèn)題就可以運(yùn)用大數(shù)據(jù)手段去解決。也就是說(shuō),這個(gè)問(wèn)題基本上就可以算是大數(shù)據(jù)問(wèn)題了。

我們總結(jié)了需要利用大數(shù)據(jù)技術(shù)手段處理的數(shù)據(jù)的三大特征。

第一,數(shù)據(jù)量大。至于數(shù)據(jù)量大到什么程度才算大數(shù)據(jù),并不存在統(tǒng)一的硬性標(biāo)準(zhǔn)。在不同的歷史時(shí)期和軟硬件條件下,數(shù)據(jù)量標(biāo)準(zhǔn)也是不同的。但不管怎么說(shuō),當(dāng)數(shù)據(jù)量大到用一臺(tái)處理器處理不過(guò)來(lái)、多到用單一存儲(chǔ)設(shè)備難以存下時(shí),就需要采用大數(shù)據(jù)手段了。

第二,數(shù)據(jù)一般帶有時(shí)間屬性。對(duì)有些數(shù)據(jù)來(lái)說(shuō),時(shí)間是主要屬性,例如,在某個(gè)時(shí)刻的設(shè)備狀態(tài)監(jiān)控信息。而對(duì)另外一些數(shù)據(jù)來(lái)說(shuō),雖然時(shí)間不是最重要的屬性,但也是屬性之一,例如,某首歌曲或者某部電影,雖然大家關(guān)注的是其內(nèi)容,但是它們同時(shí)也具有產(chǎn)生和被使用的時(shí)間屬性。

第三,數(shù)據(jù)一般具有多個(gè)屬性維度。單一屬性的數(shù)據(jù)雖然可能量也很大,但是從處理和分析的角度來(lái)看,數(shù)據(jù)往往可以被分為很多詳細(xì)的屬性,而這些屬性之間的關(guān)聯(lián)和關(guān)系才是最有價(jià)值的。例如,監(jiān)控視頻包含的也許都是單一的圖像數(shù)據(jù),而需要被處理的常常是這些圖像被分析之前的元數(shù)據(jù)以及被分析之后的詳細(xì)數(shù)據(jù)。例如,采集視頻的時(shí)間和采集時(shí)的地理位置、圖像的分辨率是元數(shù)據(jù),而圖像分析之后得到的人數(shù)、天氣情況、是否存在需要關(guān)注的異常事件等,就屬于含有更詳細(xì)的維度的信息。

IBM公司提出大數(shù)據(jù)有5V特征,分別是大量(Volume)、高速(Velocity)、真實(shí)(Veracity)、多樣(Variety)和低價(jià)值密度(Value),它們可以用來(lái)說(shuō)明大數(shù)據(jù)的數(shù)據(jù)量大、需要的處理速度快、對(duì)數(shù)據(jù)質(zhì)量的追求高,同時(shí)數(shù)據(jù)的來(lái)源往往很不同,以及價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比等特性。此外,還有人認(rèn)為大數(shù)據(jù)的特征是體量大、可分析的維度多、數(shù)據(jù)完備性重要,以及數(shù)據(jù)不能夠用傳統(tǒng)方式處理。這四項(xiàng)特性來(lái)自吳軍博士所著《智能時(shí)代》一書的第二章,其中關(guān)于多維度的解釋同本書的觀點(diǎn)不同。本書強(qiáng)調(diào)的是數(shù)據(jù)存在多維度屬性,吳博士強(qiáng)調(diào)的是數(shù)據(jù)可以被多維度分析。這些特性分析和理解當(dāng)然是沒(méi)錯(cuò)的,但從事物的不同角度看,關(guān)注的重點(diǎn)、可以進(jìn)行的分類和得到的結(jié)論會(huì)不同,因此本書中提出的三項(xiàng)大數(shù)據(jù)特性更多關(guān)注的是大數(shù)據(jù)項(xiàng)目的實(shí)施屬性,所以我們也稱之為大數(shù)據(jù)處理的三大特征。

主站蜘蛛池模板: 和林格尔县| 呼伦贝尔市| 桐梓县| 绥中县| 富民县| 灵石县| 龙岩市| 北流市| 潮安县| 密云县| 龙泉市| 遂溪县| 龙游县| 五华县| 新营市| 高陵县| 古交市| 铁岭县| 忻州市| 红河县| 尼木县| 灵川县| 金堂县| 桦川县| 白水县| 龙州县| 汨罗市| 四子王旗| 阿克苏市| 墨竹工卡县| 大冶市| 克什克腾旗| 红原县| 通州区| 上饶县| 岫岩| 涟水县| 富蕴县| 饶阳县| 望奎县| 商水县|