官术网_书友最值得收藏!

第4章 大數(shù)據(jù),你還不知道的部分(2)

如果你正確地使用了大數(shù)據(jù),收集、整理、分析和進(jìn)行預(yù)測(cè),它將為你提供夢(mèng)寐以求的情報(bào)和洞察力。它的控制功用是如此強(qiáng)大,既能夠讓你掌握最全面的信息,也足以使你從容引導(dǎo)--使自己免受威脅,保護(hù)企業(yè),解決潛在問題,并通過自檢和優(yōu)化提升效率。

現(xiàn)在全世界每天都要產(chǎn)生超過3EB的數(shù)據(jù),我們有理由相信,隨著互聯(lián)網(wǎng)、各種移動(dòng)平臺(tái)越來越廣的擁有率和使用頻率,這個(gè)數(shù)字正在不斷升高。從棱鏡門事件中我們已經(jīng)知道,美國政府千方百計(jì)要加以運(yùn)用的就是這些數(shù)據(jù)--以大數(shù)據(jù)技術(shù)來把它們吸納進(jìn)去,除了用于正面(反恐),也在試圖監(jiān)控和控制民眾。

有一家美國的顧問公司預(yù)測(cè),在今后,美國國內(nèi)還需要10多萬個(gè)數(shù)據(jù)分析專才,以及100多萬名能夠運(yùn)用數(shù)據(jù)的經(jīng)理人。由此可見,大數(shù)據(jù)的應(yīng)用在美國已經(jīng)十分普及,他們將大數(shù)據(jù)大量地運(yùn)用于社交媒體、移動(dòng)網(wǎng)絡(luò)和對(duì)輿情的分析上,進(jìn)而達(dá)到控制選民、管理資訊和監(jiān)控?cái)硣哪康摹?

誰對(duì)大數(shù)據(jù)的研究越早,準(zhǔn)備越充分,誰體現(xiàn)出來的控制力就越強(qiáng)。毫無疑問,美國人已經(jīng)走在了最前面。

控制的基礎(chǔ)是管理好這些大量的非結(jié)構(gòu)數(shù)據(jù),假如管理得當(dāng),我們就能從中挖掘出有效信息,實(shí)現(xiàn)企業(yè)和政府的管理革新。有先見之明的公司都正在從內(nèi)部的各種來源以及云基礎(chǔ)設(shè)施中收集越來越多的數(shù)據(jù),它們構(gòu)建可自控的數(shù)據(jù)中心,聘用和培養(yǎng)自己的大數(shù)據(jù)工程師。但還有更多的企業(yè)仍然徘徊在門外。后者注定會(huì)讓自己的企業(yè)遠(yuǎn)遠(yuǎn)落后于人,它們沒有辦法獲取及時(shí)有效與海量的信息,以及由此產(chǎn)生的洞察力,自然也就做不出明智的決定。

2013年,我們與安全公司EOA北美分公司在東亞地區(qū)共同完成了一項(xiàng)大數(shù)據(jù)調(diào)查。調(diào)查的對(duì)象是300位來自中國各行各業(yè)的高級(jí)主管。結(jié)果發(fā)現(xiàn),已經(jīng)有49%的中國公司關(guān)注或者非常關(guān)心大數(shù)據(jù)管理問題,但還有38%的中國公司并不明白什么是大數(shù)據(jù),對(duì)大數(shù)據(jù)還是一頭霧水;另外有27%的中國公司表示他們對(duì)此并沒獲知太多信息,只知道細(xì)枝末節(jié)或停留在看客階段。

另外,我們還發(fā)現(xiàn)76%的中國公司沒有使用恰當(dāng)?shù)墓ぞ邅砉芾碜陨淼南到y(tǒng)數(shù)據(jù)(IT系統(tǒng)),而是采取其他的獨(dú)立或缺乏互聯(lián)功能的系統(tǒng)。有的公司甚至還在采用電子表格的方法對(duì)數(shù)據(jù)進(jìn)行記錄和管理。

這是一次令人灰心的調(diào)查,但可喜的是,我們看到了積極的增長速度。相比于2012年或更早的時(shí)間,投身于大數(shù)據(jù)的中國公司正以瘋狂的速度增加。隨著設(shè)身處地感受到它的好處的公司越來越多,人們已不再準(zhǔn)備持觀望態(tài)度,而是立刻參與進(jìn)來。

要實(shí)現(xiàn)大數(shù)據(jù)控制的關(guān)鍵之一是“日志管理”,整合與自己有關(guān)的所有數(shù)據(jù),比如企業(yè)日志,建立索引庫,然后設(shè)計(jì)用戶易于理解和使用的界面。要把數(shù)據(jù)充分利用起來,就必須使數(shù)據(jù)關(guān)聯(lián)化和規(guī)范化,具備報(bào)告、反饋與防衛(wèi)入侵的能力。每一家成功的電商網(wǎng)站和面向用戶的企業(yè)官網(wǎng),都是這么做的。

現(xiàn)實(shí)的情況是,國內(nèi)目前只有56%的受訪者使用日志管理的解決方案來管理他們的數(shù)據(jù)。很多公司使用電腦系統(tǒng)自帶的普通日志或者建立一個(gè)電子表格進(jìn)行這項(xiàng)工作。更有39%的受訪者向我們表示,他們根本沒有對(duì)日志(數(shù)據(jù))進(jìn)行管理。

“有什么用嗎?”他們問。這表明,國內(nèi)對(duì)大數(shù)據(jù)核心的認(rèn)識(shí)和應(yīng)用任重而道遠(yuǎn)。提高認(rèn)識(shí)和加強(qiáng)推廣成為了當(dāng)務(wù)之急。

此外,相關(guān)的技術(shù)更新、方案和平臺(tái)必須跟上新信息產(chǎn)生的速度。數(shù)據(jù)的產(chǎn)量以幾何級(jí)的速度增加,它比宇宙中的星星還要浩瀚。如果我們檢索數(shù)據(jù)的時(shí)間太長,分析和預(yù)測(cè)就失去了意義,控制與管理更無從談起,還會(huì)造成嚴(yán)重問題。

大數(shù)據(jù)先行者

中國正處于大數(shù)據(jù)的起步階段,國外先行者的經(jīng)驗(yàn)對(duì)我們具有十分重要的參考和借鑒價(jià)值。全世界的富有遠(yuǎn)見者早在多年前就已經(jīng)開始了你追我趕,在自己大數(shù)據(jù)中心的建設(shè)上各顯神通,力爭(zhēng)在這場(chǎng)戰(zhàn)爭(zhēng)中取得先發(fā)優(yōu)勢(shì)。

☆英特爾(Intel)

英特爾公司是全球最大的半導(dǎo)體芯片制造商,成立于1968年,具有幾十年產(chǎn)品創(chuàng)新和市場(chǎng)領(lǐng)導(dǎo)的歷史。全球第一個(gè)微處理器就由它在1971年推出,從而引發(fā)了計(jì)算機(jī)和互聯(lián)網(wǎng)革命。從硬件入手以配備大數(shù)據(jù)需求是英特爾首先做的準(zhǔn)備,同時(shí)對(duì)于軟件也毫不放松,在Hadoop系統(tǒng)、Hbase、HDFS上都做了增強(qiáng)和優(yōu)化,并且推出了IntelHadoopManager2.0。

2012年7月,英特爾對(duì)外發(fā)布了自己的Hadoop商業(yè)發(fā)行版(ApacheHadoopDistribution),成為幾家大型廠商中唯一擁有自身發(fā)行版Hadoop的公司。

☆I(lǐng)BM

IBM以對(duì)數(shù)據(jù)挖掘和數(shù)據(jù)分析領(lǐng)域的收購展開了大數(shù)據(jù)時(shí)代的布局,后來正式推出名為“3A5步”的動(dòng)態(tài)路線,然后結(jié)合信息管理、業(yè)務(wù)分析等軟件提出了屬于IBM的大數(shù)據(jù)平臺(tái)架構(gòu)。

該公司的大數(shù)據(jù)架構(gòu)涵蓋了IBM在大數(shù)據(jù)領(lǐng)域的四大核心能力和相應(yīng)的產(chǎn)品線,包括:Hadoop領(lǐng)域的InfoSphereBigInsights,流計(jì)算領(lǐng)域的InfoSphereStreams,數(shù)據(jù)倉庫方面的InfoSphereWarehouse和etezza以及信息整合與治理(InformationIntegrationandGovernance)方面的產(chǎn)品Optim及Guardium。

☆Hortonworks

2011年從雅虎剝離后,Hortonworks公司在當(dāng)年8月份就發(fā)布了一款基于Hadoop的數(shù)據(jù)平臺(tái)的技術(shù)預(yù)覽版(HortonworksDataPlatform,HDP)。僅過幾周,該公司又推出了基于Hadoop0.23的HDP2.0版本,該版本的Hadoop獲得極大提升,實(shí)現(xiàn)了下一代的MapReduce。

盡管成立時(shí)間很短,但Hortonworks行動(dòng)迅速,就在IBM宣布了基于Hadoop的大數(shù)據(jù)分析平臺(tái)后不久,它便開啟了自己的大數(shù)據(jù)戰(zhàn)略。此外,它還與Talend公司達(dá)成協(xié)議,將在其數(shù)據(jù)平臺(tái)上提供給Talend公司OpenStudioforBigData工具,以全面應(yīng)對(duì)大數(shù)據(jù)處理。

☆微軟(MicrosoftCorporation)

微軟公司作為傳統(tǒng)的IT業(yè)旗幟企業(yè)、當(dāng)之無愧的壟斷巨頭,進(jìn)入大數(shù)據(jù)領(lǐng)域看起來卻并不是第一位的。它經(jīng)常被人們認(rèn)為起步較晚,但其實(shí)微軟早在2006年就致力于研究類似Hadoop的開發(fā)計(jì)劃Dryad,并使其獲得產(chǎn)品化。微軟一直保持自己的獨(dú)特風(fēng)格,不緊不慢,但從不在關(guān)鍵領(lǐng)域落后于人。

2011年初,微軟公司發(fā)布了自己的并行數(shù)據(jù)倉庫項(xiàng)目(SQL)。一年后,正式發(fā)布了SQLServer2012數(shù)據(jù)庫平臺(tái),把業(yè)務(wù)延伸到了非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域。當(dāng)WindowsAzureMarketplace和SharePoint等工具推出以后,微軟公司厚積薄發(fā),已完全具備了打造大數(shù)據(jù)平臺(tái)的能力。

☆思愛普(SAP)

成立于1972年的思愛普公司在軟件領(lǐng)域一向具有極大的優(yōu)勢(shì),而且其產(chǎn)品大多聚焦在對(duì)數(shù)據(jù)的分析能力上。這使它在大數(shù)據(jù)時(shí)代開啟的一瞬間,就已處在領(lǐng)跑者的位置。2012年8月,思愛普推出了SAPBusinessObjectsBI解決方案4.0版本的第三功能包,簡(jiǎn)稱featurepack3,隨后又進(jìn)行了改進(jìn)整合。

以SAPHANA為基礎(chǔ),思愛普還打造了強(qiáng)大的實(shí)時(shí)數(shù)據(jù)平臺(tái),為用戶提供全面的數(shù)據(jù)分析和處理服務(wù)。

☆甲骨文(Oracle)

自2009年收購SunMicrosystems公司(主要生產(chǎn)工作站和服務(wù)器)之后,甲骨文一直在進(jìn)行硬件與軟件的整合。該公司于2011年推出的大數(shù)據(jù)機(jī)(BDA)和Exalytics商務(wù)智能服務(wù)器,被認(rèn)為是甲骨文強(qiáng)勢(shì)進(jìn)入大數(shù)據(jù)市場(chǎng)的標(biāo)志。2012年初,正式供貨的BDA和Exalytics預(yù)示甲骨文大數(shù)據(jù)平臺(tái)解決方案的出臺(tái)。

2012年12月13日,甲骨文宣布收購服務(wù)于石油、電氣、供水行業(yè)的DataRaker公司,標(biāo)志著大數(shù)據(jù)應(yīng)用達(dá)到了一個(gè)新的趨勢(shì),開始向傳統(tǒng)行業(yè)滲透,產(chǎn)生深入和全面的應(yīng)用效果。

☆威睿(VMware)

威睿是全球桌面到數(shù)據(jù)中心虛擬化解決方案的領(lǐng)導(dǎo)廠商,它的虛擬化產(chǎn)品除了針對(duì)Hadoop進(jìn)行優(yōu)化外,還有圍繞大數(shù)據(jù)分析和處理的項(xiàng)目。此外,Cetas和vFabricData系列產(chǎn)品都降低了人們?cè)谶M(jìn)行數(shù)據(jù)處理分析時(shí)的復(fù)雜度。除了最為核心和拿手的虛擬化產(chǎn)品之外,威睿公司近幾年也通過收購和自我研發(fā)推出了眾多開源產(chǎn)品。比如HVE(HadoopVirtualizationEssential)的插件以及Serengeti的產(chǎn)品,都是威睿推出的開源的虛擬化產(chǎn)品。

☆Cloudera

Cloudera公司由來自臉書(Facebook)、谷歌和雅虎的前工程師杰夫·哈默巴切(JeffHammerbacher)、克里斯托弗·比塞格利亞(ChristopheBisciglia)、埃姆·阿瓦達(dá)拉(AmrAwadallah)以及現(xiàn)任CEO、甲骨文前高管邁克·奧爾森(MikeOlson)在2008年創(chuàng)建。公司采用了NoSQL和Hadoop兩種技術(shù),由此獲得了7600萬美元的融資。

在2010年6月份,該公司正式推出了自己的企業(yè)產(chǎn)品。隨后,Cloudera為其ApacheHadoop軟件發(fā)行版增添了Cloudera管理器控制臺(tái)及企業(yè)級(jí)的支持。現(xiàn)在它也與甲骨文進(jìn)行密切合作,互相增加客戶數(shù)量,推動(dòng)彼此在大數(shù)據(jù)市場(chǎng)的份額。

☆MapR

MapR公司始終專注于可用性和數(shù)據(jù)安全的優(yōu)化,它有自己的優(yōu)勢(shì)和獨(dú)一無二的特性。比如,雖然和其他公司一樣,MapR將基于開源的Hadoop產(chǎn)品商品化并進(jìn)行銷售,但它提供了很多不同于Hadoop的特性。它的產(chǎn)品為EMC的GreenplumHD企業(yè)版Hadoop提供技術(shù)支持。

不久前,MapR公司宣布了新的大數(shù)據(jù)平臺(tái)MapRM7,這將為Hadoop與NoSQL提供更為方便、可靠和快速的服務(wù)。

☆Splunk

2003年成立并于2012年上市的美國商業(yè)智能軟件提供商Splunk公司是公認(rèn)的“大數(shù)據(jù)概念第一股”,它主要的業(yè)務(wù)就是向企業(yè)及客戶提供數(shù)據(jù)引擎。它旗下的MachineData軟件的搜索功能具有強(qiáng)大的優(yōu)勢(shì),而SplunkFree則專供個(gè)人用戶使用,SplunkEnterprise則添加了支持多用戶和分布式部署的功能。

在上述產(chǎn)品大獲成功以后,Splunk公司隨即又推出新的SplunkforCitrixXenDesktop解決方案,并在2012年的中旬將SplunkAppforPCICompliance2.0全面推向市場(chǎng)。

謹(jǐn)慎:不是所有人都需要

諸如我們聽到的、看到的和正在自覺或不自覺地參與的,大數(shù)據(jù)已成為一項(xiàng)大工程,它無處不在。我們對(duì)待它就像在迎接自己的終生伴侶,興奮之情溢于言表。每個(gè)人都在想:“嘿,大數(shù)據(jù)時(shí)代來了,我能從中得到什么好處呢?”從社交媒體、初創(chuàng)公司到北京的中關(guān)村,人們都在研究和部署大數(shù)據(jù)。

但是,正如前面我們提到的,大數(shù)據(jù)不是無源之水,你需要一個(gè)充足的理由來為它打開大門,讓它進(jìn)入你的世界;同時(shí),你還需要為此付出不菲的代價(jià)。大多數(shù)公司缺乏預(yù)算,它們花不了大價(jià)錢來部署大數(shù)據(jù)技術(shù)解決方案,也請(qǐng)不起相關(guān)團(tuán)隊(duì)和大數(shù)據(jù)工程師。

大數(shù)據(jù)首先是一項(xiàng)產(chǎn)業(yè),根據(jù)一份報(bào)告顯示,2012年大數(shù)據(jù)帶動(dòng)了全球近300億美元的IT支出,預(yù)計(jì)再過4年這個(gè)數(shù)字將超過2500億美元。還有許多新興國家難以預(yù)料的市場(chǎng)空間沒有計(jì)算在內(nèi)。要知道,這幾乎是一個(gè)中等發(fā)達(dá)國家的全年國內(nèi)經(jīng)濟(jì)總產(chǎn)值了。

那些使用大數(shù)據(jù)的輝煌案例到處都是,但距離某些特定人群總是如此遙遠(yuǎn)。比如,臉書的推廣人員驕傲地說,他們每天要存儲(chǔ)大約100TB的用戶數(shù)據(jù);美國國家安全局(NSA)每天要處理約24TB的數(shù)據(jù)。驚人的數(shù)字!確實(shí)令我們印象深刻。可是處理這些數(shù)據(jù)所需要的成本是多少呢?根據(jù)一項(xiàng)公開資料顯示,NSA需要為45天的數(shù)據(jù)存儲(chǔ)服務(wù)支付超過百萬美元的費(fèi)用,這個(gè)成本還在繼續(xù)增加。在我?guī)啄甑淖咴L中,大多數(shù)公司的CIO也對(duì)我說,他們的預(yù)算支付不起大數(shù)據(jù)部署的成本。

所以,這是昂貴的門檻--公司如果想獲得大數(shù)據(jù)服務(wù),第一件要解決的事情就是提供充足的財(cái)務(wù)預(yù)算。

沒錢?對(duì)不起,這不是賣白菜,也不是批發(fā)廉價(jià)商品或請(qǐng)幾個(gè)經(jīng)理人那么簡(jiǎn)單。因此我經(jīng)常聽到人們抱怨:“大數(shù)據(jù)太貴了!”個(gè)人和企業(yè)都在仰天嘆息,但同時(shí)又充滿渴望。問題是,你真的需要它嗎?

數(shù)據(jù)存儲(chǔ)和處理的成本如此之高,成本變成了阻礙每一個(gè)人擁抱大數(shù)據(jù)的最大障礙,就像其他一切新生事物一樣。以至于我們普通人--中小企業(yè)需要尋求其他的解決方案,讓規(guī)模較小的公司和個(gè)體不被“大數(shù)據(jù)”拒之門外。

方案一:大數(shù)據(jù)的關(guān)鍵不是“大”。

大數(shù)據(jù)就一定“大”嗎?雖然全球最大的科技公司都需要和PB級(jí)規(guī)模的數(shù)據(jù)打交道,它們當(dāng)之無愧地成為對(duì)海量數(shù)據(jù)處理達(dá)到星級(jí)服務(wù)的用戶。然而,我們的研究也表明,另外有95%的公司通常只需要使用0.5TB到40TB的數(shù)據(jù),甚至更少。

臉書和NSA的故事并不能拿來作為普及版案例,它們不是常態(tài)。事實(shí)是,大公司的方案沒有必要成為中小公司效仿的版本。在全美有5萬多家公司的員工只有20到500人,它們大部分都有解決數(shù)據(jù)問題的需求,但它們并沒有向臉書和NSA看齊,去建立一個(gè)成本高昂的數(shù)據(jù)帝國。

所以你看到,大數(shù)據(jù)市場(chǎng)最大的需求并不是那些居于世界前500強(qiáng)的大公司,而是排名在500到5萬之間的公司。我們?yōu)楹沃魂P(guān)注那些極少數(shù)的例外,而忽視了普通的需求者呢?

將自己排除在PB級(jí)規(guī)模數(shù)據(jù)需求的用戶之外,我們才有可能找到真正的方案。當(dāng)大數(shù)據(jù)向我們走來時(shí),我們應(yīng)盡可能選擇一個(gè)較小的接口,一樣能享受同等的服務(wù)和便捷。

方案二:確定你是否真的需要它。

主站蜘蛛池模板: 望谟县| 宜州市| 兰坪| 五台县| 福贡县| 铁岭县| 莱阳市| 辰溪县| 新宁县| 宾阳县| 固原市| 黄骅市| 信丰县| 铁力市| 镇江市| 永康市| 宜春市| 秦皇岛市| 阿克| 台中县| 晋宁县| 东兰县| 彭泽县| 高淳县| 平定县| 中宁县| 石渠县| 上饶县| 靖边县| 成武县| 满城县| 泸水县| 汉源县| 郁南县| 胶南市| 瓮安县| 尤溪县| 交口县| 新丰县| 正宁县| 长白|