第4章 大數(shù)據(jù)如此重要,引無數(shù)英雄競折腰(1)
- 一本書讀懂大數(shù)據(jù)
- 黃穎
- 5236字
- 2015-03-23 11:43:32
在這個一秒鐘就可能江山易主的大數(shù)據(jù)時代,獲得最真實可靠的數(shù)據(jù)并進行準確的分析和預測是企業(yè)占得先機的重要條件。如何在數(shù)據(jù)上展開角力成為企業(yè)生存的核心問題,只有企業(yè)對大數(shù)據(jù)的“外貌”和“內(nèi)涵”有詳盡的了解和把握,企業(yè)才有可能在未來的發(fā)展中分得一杯羹。
多樣的非結構性數(shù)據(jù)
在電影《黑客帝國》當中,主人公尼奧在服下了藍色藥丸之后,就發(fā)現(xiàn)所有在他身邊的一切其實都是數(shù)字化的幻想而已,他的工作、伙伴、住的高樓,看到的天空大地,甚至于他的情緒都不例外。電影的創(chuàng)作自然可以天馬行空,真實的物理世界盡管不是如此,但不可否認的是它也在朝著數(shù)字化的方向高速前進。
像是高樓大廈,在動工之前就會形成一個涵蓋了設計、施工、維護等多方面的綜合建筑信息模型,它所使用的就是三維建模技術。在消費者看來,人們絕對會因為建筑信息模型的美觀大方而自掏腰包購買效果圖;在地產(chǎn)商看來,建筑信息模型所透露出來的信息便是他們需要為整個過程投入多少;在設計師看來,整個模型清清楚楚地呈現(xiàn)了所有設計的綜合,他們能夠在當中調(diào)整管線走向和通風設計等等;在工人看來,模型就是他們的施工圖;在消防部門看來,即便是尚未完工的建筑也可以通過模型來評估它的消防效果,并模擬人群疏散的動態(tài)情形??傊@建筑的方方面面實際上都已經(jīng)數(shù)字化了。
日常生活中人們所接觸到的文件、照片、視頻,還有海量的數(shù)據(jù),都有大量的信息蘊含其中。此類數(shù)據(jù)的特點是共同的,盡管它們的大小、內(nèi)容、格式和用途并不相通。拿最為常見的WORD文檔舉例就會發(fā)現(xiàn),最為簡單的文檔可能就只有幾行字而已,但是一旦插進了圖片、音樂等多媒體內(nèi)容就可以成為一個多媒體的文件,文章的感染力就會增強。這一類數(shù)據(jù)就是非結構性數(shù)據(jù)。
結構性數(shù)據(jù)與之相對應,在結構性數(shù)據(jù)中人們對于表格中的數(shù)據(jù)可以簡單解釋,因為結構都是相通的。每個人每個月所領到的工資條,工資條的結構就沒有變化過,變化的只是里面的工資和個稅、保險。個人的工資條排列在一起就形成了工資表。結構化數(shù)據(jù)的計算機處理技術已經(jīng)成熟了,會計和審計可以很有效地利用Excel工具來進行加減乘除、匯總和統(tǒng)計等一類的任務。要是有大量運算存在的話,商業(yè)數(shù)據(jù)庫就會使用上,它們的任務就是存儲和處理這些結構性數(shù)據(jù)。
可是,日常生活中無論是企業(yè)數(shù)據(jù)還是日常數(shù)據(jù),大部分都是非結構性的。有咨詢機構調(diào)查顯示非結構性的數(shù)據(jù)占到了整個企業(yè)數(shù)據(jù)量的80%,還有調(diào)查顯示高達95%,這個數(shù)據(jù)暫時還沒有權威、準確的統(tǒng)計。信息產(chǎn)業(yè)這么多年一直在努力的方向就是讓非結構性的數(shù)據(jù)能和結構性數(shù)據(jù)一樣獲得便利、快捷的處理。可是他們總在走彎路,一開始人們希望用處理結構性數(shù)據(jù)的方式來處理非結構性數(shù)據(jù)。只是非結構性數(shù)據(jù)個體之間的差異太大,用統(tǒng)一的處理模式來硬套的話,結果顯然是不會太好。因此人們有很長一段時間認為非結構性數(shù)據(jù)的處理難度很大。
幸運的是谷歌公司成了大數(shù)據(jù)處理技術的先驅(qū),它為公眾提供搜索服務的同時,把大量網(wǎng)頁、文檔等數(shù)據(jù)的快速訪問難題也解決了。雅虎公司也有一個研發(fā)小組,在谷歌技術的基礎上成功地開發(fā)了一整套處理大數(shù)據(jù)的程序框架,這就是大眾所熟知的Hadoop。目前這個領域的技術發(fā)展很是快速。
以上這些公司的技術研發(fā),讓不少人在面對非結構性數(shù)據(jù)的處理問題上重新找回了自信,因此高清圖像、視頻等處理技術都進入了快速發(fā)展的時期。
社交網(wǎng)絡上人們情緒表達方式也日漸豐富,企業(yè)為人們開發(fā)了眾多表達心情的標準化圖示,用以表達人們的各種復雜的情緒。
大數(shù)據(jù)的價值發(fā)掘
我們來說說銀行、地鐵中那些敏感部門或是地點的視頻監(jiān)控,凡攝像頭的運轉(zhuǎn)均為24小時,它勢必會產(chǎn)生大量的視頻數(shù)據(jù)。通常情況下的視頻數(shù)據(jù)是枯燥乏味的,人們不會關心。但是一旦拍到了圖謀不軌的行為,那么對于公安人員來說這視頻就非常有價值了??墒鞘孪热藗儾粫滥囊粋€部分有用,因此所有的視頻材料都要保存下來,即便是存了一年的數(shù)據(jù)哪怕只有一幀對破案有用也是有價值的視頻。不過對于研究人類行為的社會學家來說,這些視頻都是非常珍貴的第一手材料,因為從中能發(fā)現(xiàn)人類的行為模式特點。
人們?nèi)缃褚@得醫(yī)療數(shù)據(jù)并非難事,手腕上的一塊和電子表頗為類似的儀器就可以隨時隨地測量脈搏、體溫和血壓等等數(shù)據(jù),再不斷地將其傳回醫(yī)療中心。數(shù)據(jù)除了能幫助人們檢測自己的健康情況外,醫(yī)療保險公司也很是青睞這技術。保險公司的精算師依照這些數(shù)據(jù)的特點來研發(fā)新的保險產(chǎn)品,對他們現(xiàn)有的產(chǎn)品組合也是非常有幫助的。
上述的種種事例說明了:1.數(shù)據(jù)的價值是無可限量的;2.當然這價值猶如沙灘中的黃金一般需要挖掘;3.組合數(shù)據(jù)的價值要比單一種類的數(shù)據(jù)價值高得多。
在研究各行各業(yè)的數(shù)據(jù)應用中,會發(fā)現(xiàn)即使手中有一座如此大的寶藏,但挖掘工作仍是非常困難的,原因正是由于自身的數(shù)據(jù)中所蘊含的重生之道還不為人所知?;ヂ?lián)網(wǎng)公司是最早意識到數(shù)據(jù)價值的公司,因此它們總在研究和分析領域領先。不過大數(shù)據(jù)的專利不再是屬于大公司,它需要的是看待世界、產(chǎn)業(yè)的觀念和視角。大公司通過它來合縱連橫,擴張跨界,小公司也可以細水長流。關鍵問題在于如何看待大數(shù)據(jù)。
究竟多快才是快呢?
顯然是小于1秒,就在分秒之間的客戶體驗。
傳統(tǒng)數(shù)據(jù)應用和大數(shù)據(jù)應用之間的重要區(qū)別就在于此。十幾年間,無論是電信還是金融行業(yè)都在經(jīng)歷著一場核心應用系統(tǒng)從分散到總部統(tǒng)一的過程。集中大量數(shù)據(jù)之后,所產(chǎn)生的第一個問題就是各類報表形成的時間延長了。業(yè)界在很長時間內(nèi)都在質(zhì)疑能否從海量增加的數(shù)據(jù)中快速地提取信息。
在這個領域,谷歌公司的貢獻是有開創(chuàng)性的。谷歌的搜索引擎就仿佛在向信息業(yè)界宣布,全世界我那工業(yè)的搜索可以在1秒內(nèi)完成,并得到所要得到的結果。大數(shù)據(jù)應用領域谷歌成了一個標桿。要是有超過1秒鐘的數(shù)據(jù)應用的話,用戶就會有不良的體驗。下面舉個營銷方面的例子。
人們在購買越是昂貴的東西時就越是猶豫,會反復去掂量自己的購買能力。購買價格便宜的東西就越容易呈現(xiàn)出沖動購買的特征。根據(jù)消費者的購買特點,京東商城將其分為了四種類型,其中37%是沖動購買者。對于這類購物者來說,能夠在沖動的一瞬間為其送上最為精準的商品信息,是商品銷售中的關鍵因素。幸運的是,關于這一點,社交平臺的出現(xiàn),為調(diào)查人們的偏好和興趣提供了一個極好的平臺,也讓大數(shù)據(jù)時代這種精準的營銷成了可能。
股票市場的交易主要是高頻交易,要比他人快0.02秒才能有驚人的收益。為了能比他人快20毫秒,有人特地建了一條橫跨西海岸到東海岸的光纖,還有人索性就留在了紐交所所在的街區(qū)。由毫秒時間差所造成的商業(yè)機會,此后會因為大數(shù)據(jù)的普及而出現(xiàn)在眾多行業(yè)當中。
很多以應急反應為主的新興產(chǎn)業(yè)很注重時效性。他們?nèi)绻私獾侥彻S有了事故,就會在第一時間做出判斷,評估影響范圍,到達現(xiàn)場并展開處置。
互聯(lián)網(wǎng)投資創(chuàng)業(yè)現(xiàn)在的熱點領域是O2O。經(jīng)過商家門口的消費者如果能即時收到商家的促銷信息,無疑是最為美好的服務。此時的促銷消息若是消費者正好需要的商品或是服務,人人都能從中獲益。消費者節(jié)省了時間,商家商品得到銷售,服務商也獲得了傭金。如果所提供的促銷信息非準確時間獲得的,那就會演變成為最為惱人的垃圾信息。誰都不愿意在任何時間任何地方收到垃圾信息,而這兩種信息的差別常常只是幾秒鐘的差異而已。
數(shù)據(jù)的活性越高就有越大的價值。曾經(jīng)有一家公司提供了數(shù)據(jù)樣本希望有人能幫他們來評估一下潛在的商業(yè)價值。數(shù)據(jù)量很大,更新頻率也很高。這樣的數(shù)據(jù)并非不常見,很多支付公司所收集到的交費記錄常常都是如此。
數(shù)據(jù)的活性實際上就是數(shù)據(jù)的更新頻率,更新頻率越高的數(shù)據(jù)就有越大的活性,反之亦然。通常來說,數(shù)據(jù)集中的活性越大,就有越豐富的信息在其中。因此在大數(shù)據(jù)領域要有所成就的話,就要想辦法去提高數(shù)據(jù)的活性。
對于公司的投資價值的判定,人們常常會聽到這樣的觀點,公司是否擁有成規(guī)模和有活性的數(shù)據(jù)。之所以多樣化和快速等特征不被提及,就因為人們更容易記住這一點。
大數(shù)據(jù)的結構化、非結構化、半結構化及多結構化
閱讀大數(shù)據(jù)有關文章時,很多類似數(shù)據(jù)如何被結構化、非結構化、半結構化、多結構化的概念討論會出現(xiàn)。通常大數(shù)據(jù)都是非結構性的,而傳統(tǒng)數(shù)據(jù)是結構性的。只不過二者之間的差異并非絕對清晰。
應該說,大多數(shù)傳統(tǒng)數(shù)據(jù)都是結構性的。這說明傳統(tǒng)數(shù)據(jù)具有明確的、預先規(guī)范好的細節(jié)的格式等特點。任何一個時候出現(xiàn)的新數(shù)據(jù)都是以這樣的模式呈現(xiàn)的。對股票交易來說,交易信息的第一部分格式就是月份/日期/年份等時間信息,然后就是12位的賬戶數(shù)字,接下來是3-5位字母所表示的股票代碼。信息的格式事先就已經(jīng)定好了,再由規(guī)范好的格式和順序給出,這樣的話處理起來就比較簡單。
人們在面對非結構性的數(shù)據(jù)時,常常是沒有控制權的,能做的就是接收它們。像是文本數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)等等都是這樣。圖像是獨立像素用特定的方式組合起來的,只不過組合的方式是千變?nèi)f化的。完全非結構性的數(shù)據(jù)就是如此。事實上大多數(shù)的大數(shù)據(jù)應該算是半結構化的。
半結構性的數(shù)據(jù)還是具備可理解的邏輯流程和格式,只是這些格式并非對用戶都表現(xiàn)出了友好的姿態(tài)。半結構性的數(shù)據(jù)從某種程度上也可以被稱作是多結構性的數(shù)據(jù)。此類數(shù)據(jù),大量無價值的數(shù)據(jù)包裹著有價值的數(shù)據(jù)。相同情況下,理解和分析半結構性的數(shù)據(jù)難度要大很多。因此要用一套復雜的規(guī)則來理解半結構性的數(shù)據(jù),只有在讀了每一條信息之后才能動態(tài)地決定處理方法。
半結構性數(shù)據(jù)中最典型的就是網(wǎng)絡日志。人們看到網(wǎng)絡日志時,會覺得很丑陋,事實上它們中的每一條信息都有特定的價值。
非結構性的大數(shù)據(jù)源并不常見,反倒是大量的半結構性數(shù)據(jù)和多結構性數(shù)據(jù)比較常見。它們擁有可理解的邏輯流程,從中能提取出能用于分析的信息。只不過要駕馭半結構化的數(shù)據(jù),必須有時間的保障,這才是處理它們的最佳方式。
網(wǎng)絡日志的信息是有邏輯的,盡管很多時候很難看出來。日志中字段和分隔符都是不同的,仿佛是結構性的數(shù)據(jù)一般,包含了大量的價值。只不過它們彼此間非以固定的方式相聯(lián)系。不同網(wǎng)站上的網(wǎng)絡日志點擊所用的時間長短不一。另外,半結構性的數(shù)據(jù)要理解其內(nèi)在的邏輯并非不可能的,只不過要花上一段時間才行。
分析專家似乎更怕非結構性數(shù)據(jù),半結構性的數(shù)據(jù)對他們來說,要征服是需要付出努力的,而他們也能夠做得到。分析專家首先要把半結構性的數(shù)據(jù)組織成結構性的,然后再在他們的分析流程中運用。而對于非結構性的數(shù)據(jù)來說,困難就會大很多。即便是已經(jīng)征服了半結構性的數(shù)據(jù),他們要面對非結構性的數(shù)據(jù)時還是會感覺是個巨大的挑戰(zhàn)。
大數(shù)據(jù)是擴展性的下一代傳統(tǒng)數(shù)據(jù)
關于大數(shù)據(jù)的各種言論作為為眾人所關注的熱點層出不窮,核心還是大數(shù)據(jù)要如何從根本上變革分析和使用大數(shù)據(jù)的方法。仔細思考一下,會發(fā)現(xiàn)事實并非如此。
關于龐大的大數(shù)據(jù)和它們的可擴展性已經(jīng)不是個新鮮的話題。第一次使用新數(shù)據(jù)源的時候,通常會認定大數(shù)據(jù)是龐大的且很難使用的。事實上大數(shù)據(jù)不過是突破了當前極限,更大規(guī)模的數(shù)據(jù)罷了。分析專家對于傳統(tǒng)數(shù)據(jù)源的掌握即便是有瓶頸的,但這也不影響其駕馭大數(shù)據(jù)源。畢竟分析專家從一開始就非常努力地在探索新數(shù)據(jù)源,并且將持續(xù)下去。
在電信公司中分析電話詳單的第一人是誰?當然是分析專家。深入研究零售點銷售數(shù)據(jù)并為此找到價值的第一人又是誰?當然也是分析專家。最初,分析幾千個到幾萬個,甚至幾十萬個商品的數(shù)據(jù)被視為是一個巨大的難題??墒乾F(xiàn)在這一切已經(jīng)迎刃而解。
最早開始做數(shù)據(jù)源分析的分析專家處理的數(shù)據(jù)便是在當時被認定為無法處理的數(shù)據(jù)。首先他們要做的是找到分析和利用的方法,并且是在當時的條件下。不少人對可行性產(chǎn)生質(zhì)疑,還有人認為這些數(shù)據(jù)并非具有價值。
分析專家們正努力在做的事情和他們做事情的理由不會因為大數(shù)據(jù)而發(fā)生改變,即便從一開始很多分析專家會自稱為數(shù)據(jù)科學家,可是他們的目標還是一致的。待解決的很多問題都涉及了大數(shù)據(jù),這跟從前差別不大。最后分析專家和數(shù)據(jù)科學家們還是會去探索一直以來探索的事情的,并從中發(fā)現(xiàn)一些有價值的趨勢和模式。必須強調(diào)的一點是,盡管大數(shù)據(jù)聽起來很陌生,可是它所帶來的挑戰(zhàn)卻無須畏懼。
不論從什么方面來說,大數(shù)據(jù)所產(chǎn)生的問題一定是從前出現(xiàn)過的。在數(shù)據(jù)分析領域,永恒的主題就是駕馭新的、可擴展性極限的大數(shù)據(jù)源。大數(shù)據(jù)不過是下一代的這種數(shù)據(jù)罷了。處理此類情況,分析師已經(jīng)很是熟悉了。只要是有駕馭過其他數(shù)據(jù)經(jīng)驗的企業(yè),大數(shù)據(jù)也同樣可以駕馭。
分析專家的工作策略有一部分會因為大數(shù)據(jù)而改變。他們常常將新的工具、方法、技術和傳統(tǒng)分析工具相結合,目的是為了有效地處理大數(shù)據(jù)流。要從中提取最有效的信息,復雜的過濾算法是十分必要的。當然也要更新建模和預測程序,大量的數(shù)據(jù)要輸入添加到現(xiàn)有的輸入當中去。
從根本上來說,分析的目標和流程并不因工作策略的改變而改變。大數(shù)據(jù)催生的是創(chuàng)新性的分析方法,分析專家也必須在繼續(xù)擴展性的瓶頸下革新??墒潜仨毘姓J的是,分析專家在處理大數(shù)據(jù)和以往數(shù)據(jù)時的方式差異不大。
是什么構成了大數(shù)據(jù)價值鏈?
依照所提供價值的來源(數(shù)據(jù)本身、技能和思維)不同,大數(shù)據(jù)公司可以分為三類。
- 數(shù)據(jù)庫基礎教程(SQL Server平臺)
- 數(shù)據(jù)浪潮
- 有趣的二進制:軟件安全與逆向分析
- Google Visualization API Essentials
- 信息系統(tǒng)與數(shù)據(jù)科學
- MongoDB管理與開發(fā)精要
- 揭秘云計算與大數(shù)據(jù)
- 數(shù)據(jù)化網(wǎng)站運營深度剖析
- Hadoop 3.x大數(shù)據(jù)開發(fā)實戰(zhàn)
- The Game Jam Survival Guide
- 區(qū)塊鏈技術應用與實踐案例
- Web Services Testing with soapUI
- Visual Studio 2012 and .NET 4.5 Expert Development Cookbook
- 云原生架構:從技術演進到最佳實踐
- 大數(shù)據(jù)隱私保護技術與治理機制研究