官术网_书友最值得收藏!

第2章 身處數(shù)據(jù)時(shí)代,揭開大數(shù)據(jù)的面紗(1)

科技的迅速發(fā)展,互聯(lián)網(wǎng)金融的興起和繁榮,把數(shù)據(jù)推到了所有金融元素的核心位置。越來越多的企業(yè)逐漸認(rèn)識(shí)到只有掌握正確的數(shù)據(jù)并看透數(shù)據(jù)背后的故事,才能夠獲得源源不斷的財(cái)富。大數(shù)據(jù)時(shí)代伴著鏗鏘有力的節(jié)奏引領(lǐng)了世界的新潮流。

大數(shù)據(jù)到底是什么?

如果要追溯“大數(shù)據(jù)”這個(gè)專業(yè)術(shù)語(yǔ)最初的出處的話,就必然要提及apache org的開源項(xiàng)目Nutch。在那個(gè)時(shí)候,大數(shù)據(jù)的意思是更新網(wǎng)絡(luò)搜索索引,同時(shí)還需要批量處理和分析大量的數(shù)據(jù)集。谷歌的Map Reduce和Google File System(GFS)發(fā)布了之后,大數(shù)據(jù)的定義中除了涵蓋大量數(shù)據(jù)之外,還包括數(shù)據(jù)處理的速度。

研究機(jī)構(gòu)Gartner曾給大數(shù)據(jù)(Big data)下過這樣的定義:大數(shù)據(jù)是一種基于新的處理模式而產(chǎn)生的具有強(qiáng)大的決策力、洞察力以及流程優(yōu)化能力的多樣性的、海量的且增長(zhǎng)率高的信息資產(chǎn)。

大數(shù)據(jù)一詞源于英文的“Big Data”一詞,以往也有類似的詞語(yǔ),如“信息爆炸”“海量數(shù)據(jù)”等等似乎都很難去準(zhǔn)確描述這個(gè)詞的具體內(nèi)涵。麥肯錫全球研究所所做的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》(James ,2011)是這么定義“大數(shù)據(jù)”的:

大數(shù)據(jù)通常指的是大小規(guī)格超越傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具抓取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)群。這個(gè)定義也有很強(qiáng)的主觀色彩,因?yàn)榫烤故裁礃右?guī)格的數(shù)據(jù)才是大數(shù)據(jù),這沒有統(tǒng)一的標(biāo)準(zhǔn),也就是無法確定超過多少TB(1000GB)的數(shù)據(jù)才是大數(shù)據(jù)。隨著時(shí)間的推移和技術(shù)的發(fā)展,我們必須知道“大數(shù)據(jù)”的量會(huì)越來越大。還有一點(diǎn),這定義也會(huì)因?yàn)椴块T的差異而發(fā)生標(biāo)準(zhǔn)的變化,這和通用的是什么軟件以及特定行業(yè)數(shù)據(jù)集的大小有密切的關(guān)系。所以,現(xiàn)有各行業(yè)的大數(shù)據(jù)可以是幾十TB,也可以是幾千TB。

按照EMC的界定,特指的大數(shù)據(jù)一定是指大型數(shù)據(jù)集,規(guī)模大概在10TB。通過多用戶將多個(gè)數(shù)據(jù)集集合在一起,能構(gòu)成PB的數(shù)據(jù)量。

在IBM2011IOD大會(huì)上,負(fù)責(zé)IBM軟件和硬件兩大集團(tuán)的高級(jí)副總裁Steve Mills曾說過:“分析已經(jīng)成為必要的能力,不再只是一個(gè)工具,是一種能讓業(yè)務(wù)流程運(yùn)轉(zhuǎn)的智慧能力。企業(yè)要轉(zhuǎn)化信息的洞察力為行動(dòng),而不是僅僅去爭(zhēng)取競(jìng)爭(zhēng)的優(yōu)勢(shì),要將其轉(zhuǎn)換為生存的根本。”

IBM公司概括大數(shù)據(jù)時(shí)有三個(gè)V,也就是大量化(Volume),多樣化(Variety)和快速化(Velocity),此外它們還針對(duì)客戶有了“大數(shù)據(jù)解決方案”的服務(wù)。IBM公司對(duì)大數(shù)據(jù)所概括出的三個(gè)V,其實(shí)也說明大數(shù)據(jù)潛藏的另一個(gè)V——價(jià)值(Value)。就這么說的話,大數(shù)據(jù)確實(shí)具備這四個(gè)V的基本特征。

大數(shù)據(jù)的第一個(gè)特征是數(shù)據(jù)的量大。電腦的數(shù)據(jù)運(yùn)算和儲(chǔ)存單位都是字節(jié)(byte),1KB(kilobyte)等于1024B,就是千字節(jié)。除此之外還有更高的單位MB(Megabyte兆字節(jié)),GB(Gigabyte,吉字節(jié)),TB(Trillion byte,太字節(jié))、PB(Pet byte,拍字節(jié)),EB(Exabyte,艾字節(jié)),ZB(Zetta byte,澤它字節(jié))和YB(Yotta byte,堯字節(jié))。每一級(jí)之間的換算關(guān)系是1024。到了2009年,幾乎每一個(gè)美國(guó)企業(yè),只要是雇員人數(shù)超過1000人的,它的數(shù)據(jù)存儲(chǔ)量大概都超過了200TB,這是十年前沃爾瑪公司數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)量的2倍還多。在不少經(jīng)濟(jì)部門當(dāng)中,企業(yè)平均的數(shù)據(jù)存儲(chǔ)量甚至都達(dá)到了1PB。2010年歐洲組織的存儲(chǔ)總量大概為11EB,這個(gè)數(shù)字幾乎是整個(gè)美國(guó)數(shù)據(jù)總量(16EB)的70%。2010年全球企業(yè)在硬盤上的數(shù)據(jù)存儲(chǔ)量已經(jīng)超過了7EB,而在PC和筆記本電腦等設(shè)備上的個(gè)人存儲(chǔ)量也超過了6EB。美國(guó)國(guó)會(huì)圖書館當(dāng)時(shí)存儲(chǔ)的數(shù)據(jù)大概只是1EB的4000分之一(James,2011)。硬件技術(shù)的發(fā)展速度遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)容量的增長(zhǎng)速度,為此數(shù)據(jù)存儲(chǔ)和處理的危機(jī)應(yīng)運(yùn)而生。巨大數(shù)量的數(shù)據(jù)被處理掉,例如醫(yī)療衛(wèi)生提供商會(huì)將它們90%的數(shù)據(jù)給處理掉(這其中包括幾乎所有在手術(shù)過程中產(chǎn)生的實(shí)時(shí)視頻和圖像資料)。

只不過,大數(shù)據(jù)不單純只是大。海量數(shù)據(jù)存儲(chǔ)危機(jī)的產(chǎn)生不僅僅是由于數(shù)據(jù)量爆炸性的增長(zhǎng),還有數(shù)據(jù)類型的改變帶來的,這就是第二個(gè)V,多樣化。此前的數(shù)據(jù)庫(kù)用二維表結(jié)構(gòu)存儲(chǔ)方式就可以儲(chǔ)存數(shù)據(jù),譬如常見的Excel軟件中處理的數(shù)據(jù),這稱為結(jié)構(gòu)化數(shù)據(jù)。可是現(xiàn)在隨著互聯(lián)網(wǎng)多媒體應(yīng)用的出現(xiàn),像是聲音、圖片和視頻等等非結(jié)構(gòu)化的數(shù)據(jù)所占的比重在日益增多。有統(tǒng)計(jì)表明,全世界非結(jié)構(gòu)化數(shù)據(jù)的增加率是63%,相對(duì)而言結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率只有32%。2012年,非結(jié)構(gòu)化數(shù)據(jù)在整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)中的占比已經(jīng)超過了75%。

Informatica中國(guó)區(qū)的首席產(chǎn)品顧問但彬就提到過,大數(shù)據(jù)里有海量數(shù)據(jù)的含義,但它又大于海量數(shù)據(jù)的定義。簡(jiǎn)單來說,海量數(shù)據(jù)加上其他復(fù)雜類型的數(shù)據(jù)就是大數(shù)據(jù)的概念了。但彬還提到,所有交易和交互數(shù)據(jù)集都屬于大數(shù)據(jù),它的規(guī)模和復(fù)雜程度早已在依據(jù)合理成本和時(shí)限進(jìn)行捕捉、管理和處理數(shù)據(jù)集的傳統(tǒng)技術(shù)的能力之上。

簡(jiǎn)而言之,三種主要技術(shù)趨勢(shì)匯聚成了大數(shù)據(jù):其一是海量交易數(shù)據(jù),包括半結(jié)構(gòu)化和非結(jié)構(gòu)化信息,在從ERP應(yīng)用程序到基于數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序的在線交易處理(OLTP)和分析系統(tǒng)的過程當(dāng)中總在不斷增長(zhǎng)。企業(yè)很多的數(shù)據(jù)和業(yè)務(wù)流程也在不斷走向公共和個(gè)人云轉(zhuǎn)移,將造成更為復(fù)雜的局面。其二是海量交互數(shù)據(jù)。因?yàn)镕acebook、Twitter、LinkedIn以及其他更多的社交媒體的興起,這一部分?jǐn)?shù)據(jù)誕生了海量的交互數(shù)據(jù),其中涵蓋了呼叫詳細(xì)記錄(CDR)、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù),還有利用管理文件傳輸(Manage File Transfer)協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件,等等。其三就是海量數(shù)據(jù)處理。隨著大數(shù)據(jù)的涌現(xiàn),已經(jīng)有很多用于密集型數(shù)據(jù)處理的架構(gòu)應(yīng)運(yùn)而生,比如Apache Hadoop,它具有開放源碼以及在商品硬件群中運(yùn)行的特性。此外還有能以可靠、高效、可伸縮的方式分布式處理大數(shù)據(jù)的軟件框架Hadoop。它之所以可靠,是因?yàn)樗軌蛱崆凹俣ㄓ?jì)算元素和存儲(chǔ)失敗,所以它能夠維護(hù)多個(gè)工作數(shù)據(jù)副本,用并行處理的方式來加快處理能力和速度。Hadoop也是可伸縮的,PB級(jí)的數(shù)據(jù)它也可以處理。另外,Hadoop因?yàn)橐蕾囉谏鐓^(qū)服務(wù)器,所以它的成本很低,不論是誰(shuí)都可以使用。對(duì)企業(yè)來說,最難的在于如何通過成本效益的方式從Hadoop中存取數(shù)據(jù)。Hadoop最知名的用戶是臉譜。通過Hadoop,像臉譜這一類的網(wǎng)站,也就可以自由地處理海量的數(shù)據(jù),同時(shí)獲得較高的收益。

“大”是重點(diǎn),還是“數(shù)據(jù)”是重點(diǎn)?

先來做一個(gè)小測(cè)驗(yàn)。當(dāng)閱讀開始前,先停下來思考這么一個(gè)問題:哪部分是術(shù)語(yǔ)“大數(shù)據(jù)”中最為重要的?是大,還是數(shù)據(jù)?還是二者都一樣重要,或是都一樣不重要?花一分鐘的時(shí)間去思考這個(gè)問題。假如已經(jīng)有了自己的答案,那就開始閱讀接下來的內(nèi)容。

既然答案已經(jīng)有了,那就來看看哪個(gè)是正確的?顯然,正確的答案應(yīng)該是最后一個(gè),事實(shí)上在大數(shù)據(jù)中,“大”和“數(shù)據(jù)”都不重要。其中最重要的是企業(yè)該如何去駕馭這些大數(shù)據(jù)。對(duì)大數(shù)據(jù)進(jìn)行分析,以及在此基礎(chǔ)上采取的業(yè)務(wù)改進(jìn)才是最為關(guān)鍵的。

事實(shí)上,大數(shù)據(jù)本身是沒有任何價(jià)值可言的。即便是一個(gè)人比另一個(gè)人擁有更多的數(shù)據(jù),這也不代表什么。任何一個(gè)數(shù)據(jù)集,它們或大或小,本身都沒有價(jià)值可言。如果不懂得如何去使用收集來的數(shù)據(jù),那這些數(shù)據(jù)不會(huì)比地下室里的垃圾更有用。要是不投入環(huán)境或者是付諸使用的話,數(shù)據(jù)的意義就不在了。任何大量或是少量的大數(shù)據(jù)該如何體現(xiàn)自己的威力呢?要怎么去分析這些數(shù)據(jù)呢,又該如何去洞察或是采取什么樣的行動(dòng)呢?這些數(shù)據(jù)又要如何來改進(jìn)業(yè)務(wù)呢?

很多人在閱讀了眾多炒作大數(shù)據(jù)的文章之后就相信之所以大數(shù)據(jù)要比其他數(shù)據(jù)有優(yōu)勢(shì),就在于它的容量大、速度快和多樣性,這種說法并不準(zhǔn)確。在很多大數(shù)據(jù)當(dāng)中,相比以往數(shù)據(jù)會(huì)存在更多毫無價(jià)值或是價(jià)值很小的數(shù)據(jù)。一旦大數(shù)據(jù)被精簡(jiǎn)到實(shí)際需要的容量時(shí),它們所呈現(xiàn)出來的就不是大數(shù)據(jù)了。事實(shí)上這也不重要,無論是它被精簡(jiǎn)還是保持原本龐大的模樣,這些關(guān)系都不大,最重要的是處理它的方式。所以說使用數(shù)據(jù)要比起它的容量更為重要。

大數(shù)據(jù)龐大的規(guī)模并非人們所關(guān)注的,包括它們能帶來巨大的內(nèi)在價(jià)值也非關(guān)注的事實(shí)。最大的價(jià)值還在于分析的方式,以及采用什么樣的方式來改進(jìn)自己的業(yè)務(wù)。

在人們閱讀一本書的時(shí)候,關(guān)鍵點(diǎn)的第一個(gè)是大數(shù)據(jù)的大數(shù)據(jù)量,并且要承認(rèn)大數(shù)據(jù)也是數(shù)據(jù)中的一種。只不過這并非企業(yè)興奮的理由所在。這些數(shù)據(jù)使用時(shí)的新穎且強(qiáng)大的分析方式才是企業(yè)注意力集中的地方。作為社交網(wǎng)絡(luò)應(yīng)用的Facebook和微博,都構(gòu)建了關(guān)聯(lián)普遍用戶的行為數(shù)據(jù)。人們?cè)诰W(wǎng)絡(luò)上瀏覽網(wǎng)頁(yè)、購(gòu)買商品、游戲休閑原本是不關(guān)聯(lián)的。當(dāng)智能手機(jī)推廣普及之后,網(wǎng)絡(luò)的行為越來越碎片化了。假設(shè)沒有一定的關(guān)聯(lián),就很難去分析和利用這些數(shù)據(jù)。社交網(wǎng)絡(luò)提供給用戶統(tǒng)一的接口,讓無論是玩游戲還是買商品的客戶可以輕松地把碎片化的信息發(fā)到網(wǎng)絡(luò)上。就像是一個(gè)用戶行為數(shù)據(jù)連接器的角色一樣,微博把所謂網(wǎng)絡(luò)上用戶的行為,完整地關(guān)聯(lián)起來,畫出一幅生動(dòng)的網(wǎng)絡(luò)生活圖景,把用戶的偏好、性格、態(tài)度等特征真實(shí)地反映出來,而這當(dāng)中就是最為充分的商業(yè)機(jī)會(huì)。

彼此關(guān)聯(lián)的數(shù)據(jù)價(jià)值要遠(yuǎn)大于孤立的數(shù)據(jù)。可是在當(dāng)下數(shù)據(jù)孤島是很常見的。個(gè)人計(jì)算機(jī)中的文件一般都會(huì)以某種類目來存放,內(nèi)容和內(nèi)容之間沒太強(qiáng)的聯(lián)系。企業(yè)之間也是如此,很多部門之間都壁壘林立,似乎每個(gè)人都愿意去保護(hù)自己的數(shù)據(jù),從而形成“數(shù)據(jù)割據(jù)”的局面。只要是處在數(shù)據(jù)孤島中,大數(shù)據(jù)所潛在的價(jià)值是很難被挖掘出來的。

與眾不同的大數(shù)據(jù)

有別于傳統(tǒng)數(shù)據(jù)源的大數(shù)據(jù)有不少重要的特征,不是每個(gè)大數(shù)據(jù)源都有這些特征存在,絕大多數(shù)的大數(shù)據(jù)或多或少地都存在一些這樣的特征。

第一個(gè)特征是大數(shù)據(jù)的來源往往是機(jī)器自動(dòng)的結(jié)果。人工不會(huì)干涉到新數(shù)據(jù)的產(chǎn)生過程,完全是機(jī)器自動(dòng)的結(jié)果。如果拿傳統(tǒng)數(shù)據(jù)源進(jìn)行分析的話,就會(huì)發(fā)現(xiàn)它們的形成過程中會(huì)有人工的痕跡,像是零售業(yè)和銀行交易、電話呼叫記錄、產(chǎn)品發(fā)票等等,和某個(gè)人做的事情都有關(guān)系,無論什么情形,都會(huì)有人參與到新數(shù)據(jù)的形成過程中。可是大數(shù)據(jù)不是這樣產(chǎn)生的,它不會(huì)在產(chǎn)生過程中與人互動(dòng),像是引擎中內(nèi)置的傳感器,即便沒有人干預(yù)周圍數(shù)據(jù)也會(huì)自動(dòng)生成。

第二個(gè)特征是大數(shù)據(jù)作為一個(gè)全新的數(shù)據(jù)源,不僅僅是已有數(shù)據(jù)的收集擴(kuò)展,比如在互聯(lián)網(wǎng)中,顧客與銀行、零售商之間可以直接在線交易。事實(shí)上這種交易方式和傳統(tǒng)交易差異不大,不過是換一種渠道而已。企業(yè)通過收集網(wǎng)絡(luò)交易數(shù)據(jù)就會(huì)發(fā)現(xiàn)這樣情形下的數(shù)據(jù)和多年來他們得到的傳統(tǒng)數(shù)據(jù)差異不大,不過是數(shù)量增加了而已。如果收集的是客戶瀏覽行為的數(shù)據(jù),那就會(huì)產(chǎn)生本質(zhì)上全然不同的數(shù)據(jù)。

上面提到的相同類型數(shù)據(jù),不過是數(shù)量多了的說法也會(huì)因?yàn)檫_(dá)到另一個(gè)極端,成為最新的數(shù)據(jù),比如說傳統(tǒng)讀電表都是人工方式,也就是說自動(dòng)讀取用電數(shù)據(jù)的智能電表所產(chǎn)生的數(shù)據(jù)就是類型相同,不過是數(shù)量增加了。不過這種數(shù)據(jù)在某種程度上也能成為一種有別于人工讀取的數(shù)據(jù),應(yīng)用更為深層次的分析方式,這樣一來它們就可以稱作是新的數(shù)據(jù)源。

第三個(gè)特征是大數(shù)據(jù)中的大多數(shù)設(shè)計(jì)并非友好。實(shí)際上這些數(shù)據(jù)并未經(jīng)過設(shè)計(jì)。就拿社交媒體網(wǎng)站上的文本流舉例,用戶不一定會(huì)被要求用標(biāo)準(zhǔn)的語(yǔ)序、語(yǔ)法和詞匯表。人們的信息一經(jīng)發(fā)布,社交平臺(tái)就能夠獲得數(shù)據(jù)。這些不太規(guī)范的數(shù)據(jù)處理起來還是有一定困難的。在設(shè)計(jì)之初,大多數(shù)的傳統(tǒng)數(shù)據(jù)都盡量要友好一些,就比如收集交易信息的系統(tǒng)最早生成數(shù)據(jù)會(huì)以整潔或是預(yù)先規(guī)范的方式來操作,這樣形成的數(shù)據(jù)就更有利于加載和使用。還有一部分原因是由于要對(duì)空間進(jìn)行高效利用,以避免出現(xiàn)空間不夠的局面。

大數(shù)據(jù)有時(shí)候還會(huì)是凌亂和丑陋的。通常最開始傳統(tǒng)數(shù)據(jù)就已經(jīng)被嚴(yán)格地定義。每一比特的數(shù)據(jù)都存在重要的價(jià)值,這是必需的。一般大數(shù)據(jù)源一開始不會(huì)被嚴(yán)格定義,這和存儲(chǔ)空間的開銷越來越微乎其微有關(guān),必須對(duì)各種有用的信息進(jìn)行收集。所以說大數(shù)據(jù)分析的時(shí)候,各種凌亂丑陋的數(shù)據(jù)都有可能遇見。

最后的特征是海量數(shù)據(jù)并非有大量?jī)r(jià)值。實(shí)際的數(shù)據(jù)很多都是毫無價(jià)值的。在一篇網(wǎng)頁(yè)日志當(dāng)中,非常重要的數(shù)據(jù)就包含其中,當(dāng)然也有好多沒價(jià)值的數(shù)據(jù)也在其中。很有必要從中提煉最有價(jià)值的部分。定義傳統(tǒng)數(shù)據(jù)源的起初就要求數(shù)據(jù)是百分百有用。這是因?yàn)榭蓴U(kuò)展性受到了限制,所以如果有沒價(jià)值的信息在當(dāng)中的話代價(jià)會(huì)非常昂貴。除了最初定義的有數(shù)據(jù)記錄的格式外,數(shù)據(jù)內(nèi)容和價(jià)值也被定義和約束了。當(dāng)下存儲(chǔ)空間的問題已經(jīng)不存在了。大數(shù)據(jù)所收集的是所有的信息,然后再去解決這些冗余信息所帶來的問題。只有這樣才會(huì)不遺漏所有的信息,與此同時(shí)在分析數(shù)據(jù)時(shí)的麻煩也會(huì)讓人頭疼不已。

主站蜘蛛池模板: 金川县| 吴川市| 浙江省| 民丰县| 呼图壁县| 民和| 绥棱县| 长丰县| 教育| 宁阳县| 翼城县| 平南县| 疏附县| 上饶县| 洛阳市| 益阳市| 墨竹工卡县| 南川市| 郑州市| 巩义市| 呼伦贝尔市| 浦县| 宁夏| 雷州市| 富平县| 鸡西市| 法库县| 洛川县| 西平县| 巴青县| 白朗县| 简阳市| 邛崃市| 大同县| 古浪县| 益阳市| 双峰县| 伊川县| 霍城县| 二手房| 彭州市|