- 大數(shù)據(jù)理論與工程實(shí)踐
- 陸晟 劉振川 汪關(guān)盛等編著
- 1016字
- 2019-10-23 13:28:07
大數(shù)據(jù)處理的特征
隨著數(shù)據(jù)日積月累,需求的應(yīng)用場(chǎng)景也會(huì)越來(lái)越豐富。那么,大數(shù)據(jù)到底是如何被處理的呢?對(duì)很多人來(lái)說(shuō),大數(shù)據(jù)只是一個(gè)概念,而工程師面對(duì)的卻是待解決的實(shí)際問(wèn)題。他們需要解決這些問(wèn)題,至于是不是用大數(shù)據(jù)的方式,一開始未必就能確定。也許他們一開始并沒(méi)有意識(shí)到需要用大數(shù)據(jù)。當(dāng)他們發(fā)現(xiàn):我的天啊!數(shù)據(jù)怎么這么多!我的程序跑個(gè)基本處理竟然要五個(gè)小時(shí)!這時(shí),就該大數(shù)據(jù)出馬了。
當(dāng)你發(fā)現(xiàn),需要解決的問(wèn)題具備幾個(gè)共同特征,那么這個(gè)問(wèn)題就可以運(yùn)用大數(shù)據(jù)手段去解決。也就是說(shuō),這個(gè)問(wèn)題基本上就可以算是大數(shù)據(jù)問(wèn)題了。
我們總結(jié)了需要利用大數(shù)據(jù)技術(shù)手段處理的數(shù)據(jù)的三大特征。
第一,數(shù)據(jù)量大。至于數(shù)據(jù)量大到什么程度才算大數(shù)據(jù),并不存在統(tǒng)一的硬性標(biāo)準(zhǔn)。在不同的歷史時(shí)期和軟硬件條件下,數(shù)據(jù)量標(biāo)準(zhǔn)也是不同的。但不管怎么說(shuō),當(dāng)數(shù)據(jù)量大到用一臺(tái)處理器處理不過(guò)來(lái)、多到用單一存儲(chǔ)設(shè)備難以存下時(shí),就需要采用大數(shù)據(jù)手段了。
第二,數(shù)據(jù)一般帶有時(shí)間屬性。對(duì)有些數(shù)據(jù)來(lái)說(shuō),時(shí)間是主要屬性,例如,在某個(gè)時(shí)刻的設(shè)備狀態(tài)監(jiān)控信息。而對(duì)另外一些數(shù)據(jù)來(lái)說(shuō),雖然時(shí)間不是最重要的屬性,但也是屬性之一,例如,某首歌曲或者某部電影,雖然大家關(guān)注的是其內(nèi)容,但是它們同時(shí)也具有產(chǎn)生和被使用的時(shí)間屬性。
第三,數(shù)據(jù)一般具有多個(gè)屬性維度。單一屬性的數(shù)據(jù)雖然可能量也很大,但是從處理和分析的角度來(lái)看,數(shù)據(jù)往往可以被分為很多詳細(xì)的屬性,而這些屬性之間的關(guān)聯(lián)和關(guān)系才是最有價(jià)值的。例如,監(jiān)控視頻包含的也許都是單一的圖像數(shù)據(jù),而需要被處理的常常是這些圖像被分析之前的元數(shù)據(jù)以及被分析之后的詳細(xì)數(shù)據(jù)。例如,采集視頻的時(shí)間和采集時(shí)的地理位置、圖像的分辨率是元數(shù)據(jù),而圖像分析之后得到的人數(shù)、天氣情況、是否存在需要關(guān)注的異常事件等,就屬于含有更詳細(xì)的維度的信息。
IBM公司提出大數(shù)據(jù)有5V特征,分別是大量(Volume)、高速(Velocity)、真實(shí)(Veracity)、多樣(Variety)和低價(jià)值密度(Value),它們可以用來(lái)說(shuō)明大數(shù)據(jù)的數(shù)據(jù)量大、需要的處理速度快、對(duì)數(shù)據(jù)質(zhì)量的追求高,同時(shí)數(shù)據(jù)的來(lái)源往往很不同,以及價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比等特性。此外,還有人認(rèn)為大數(shù)據(jù)的特征是體量大、可分析的維度多、數(shù)據(jù)完備性重要,以及數(shù)據(jù)不能夠用傳統(tǒng)方式處理。這些特性分析和理解當(dāng)然是沒(méi)錯(cuò)的,但從事物的不同角度看,關(guān)注的重點(diǎn)、可以進(jìn)行的分類和得到的結(jié)論會(huì)不同,因此本書中提出的三項(xiàng)大數(shù)據(jù)特性更多關(guān)注的是大數(shù)據(jù)項(xiàng)目的實(shí)施屬性,所以我們也稱之為大數(shù)據(jù)處理的三大特征。
- SQL入門經(jīng)典(第5版)
- Developing Mobile Games with Moai SDK
- Modern Programming: Object Oriented Programming and Best Practices
- 醫(yī)療大數(shù)據(jù)挖掘與可視化
- 數(shù)據(jù)庫(kù)系統(tǒng)原理及應(yīng)用教程(第4版)
- iOS and OS X Network Programming Cookbook
- 數(shù)據(jù)驅(qū)動(dòng):從方法到實(shí)踐
- SQL Server 2012數(shù)據(jù)庫(kù)管理教程
- Visual FoxPro數(shù)據(jù)庫(kù)技術(shù)基礎(chǔ)
- 智慧城市中的大數(shù)據(jù)分析技術(shù)
- Internet of Things with Python
- 數(shù)據(jù)庫(kù)原理與設(shè)計(jì)實(shí)驗(yàn)教程(MySQL版)
- 數(shù)據(jù)中心UPS系統(tǒng)運(yùn)維
- 實(shí)用預(yù)測(cè)分析
- 數(shù)字孿生