第7章 大數(shù)據(jù)時代給世界的巨大轉(zhuǎn)型機會(1)
- 大數(shù)據(jù)在中國
- 趙偉
- 5434字
- 2014-12-26 13:58:55
我們能做什么,我們要做什么
●不管怎么樣,我們現(xiàn)在唯一要做的事情是,張開雙臂,積極地迎接大數(shù)據(jù)時代。
●今天,如果你正在或者打算嘗試使用云技術(shù),比如云分享或云計算,那么恭喜,你已成為大數(shù)據(jù)時代的一員,或者是它的受害者。
●大數(shù)據(jù)的出現(xiàn)首先是一種機遇,其次它帶來了重大的挑戰(zhàn)。我們既要享受它產(chǎn)生的福利,也要警惕它背后潛在的弊病。
☆先抓住它的核心問題
大數(shù)據(jù)具有多層結(jié)構(gòu),這意味著它的形式多變,類型也很豐富。有人認(rèn)為,人們越來越頻繁地使用互聯(lián)網(wǎng)進行搜索是形成數(shù)據(jù)多樣性的主要原因,這當(dāng)然是有道理的,但最主要的還是由于新型多結(jié)構(gòu)數(shù)據(jù)的出現(xiàn),以及包括網(wǎng)絡(luò)日志、社交媒體、手機通話記錄及傳感器網(wǎng)絡(luò)等數(shù)據(jù)類型形成的。數(shù)據(jù)傳感器可以安在更多的地方,比如汽車、飛機、衛(wèi)星或手機上,都增加了數(shù)據(jù)的多樣性。
和傳統(tǒng)的業(yè)務(wù)數(shù)據(jù)比起來,大數(shù)據(jù)又存在不規(guī)則和模糊不清的特性,因此人們很難甚至沒有辦法使用傳統(tǒng)軟件或方法進行分析,有時就連收集也成為一種不可能。隨著傳統(tǒng)的業(yè)務(wù)數(shù)據(jù)的演變,它的格式已能夠被標(biāo)準(zhǔn)的智能軟件識別,目前我們面臨的挑戰(zhàn)是處理并且從以各種形式呈現(xiàn)的復(fù)雜數(shù)據(jù)中挖掘價值。
一項關(guān)于數(shù)據(jù)創(chuàng)建速度的調(diào)查顯示,到2020年時,全世界將擁有220億部互聯(lián)網(wǎng)連接設(shè)備。在大數(shù)據(jù)時代,數(shù)據(jù)被創(chuàng)建和移動的速度是非常快的,創(chuàng)建實時數(shù)據(jù)流是一種流行趨勢,因為有高速電腦和服務(wù)器的存在,這不是什么難事。在這個基礎(chǔ)上,我們還必須懂得如何快速處理、分析數(shù)據(jù)并滿足用戶的實時需求。
我們(包括企業(yè)和個人)面臨著數(shù)據(jù)量的大規(guī)模增長,這是一個不爭的事實。再過15年,全世界的數(shù)據(jù)量將擴大到今天的50到60倍。它的規(guī)模是一個時刻在變化的指標(biāo),誰也無法預(yù)計將來還會出現(xiàn)多大程度的技術(shù)飛躍。但可以肯定的是,數(shù)據(jù)量的增長只會越來越快,絕不會放慢。另外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù),也都能保存數(shù)據(jù)。
☆想想你能做什么?
在將來,我們的競爭優(yōu)勢(超越強手的優(yōu)勢)將來自何處呢?想想這個問題,你就明白了大數(shù)據(jù)賦予人類的使命。未來的競爭優(yōu)勢已很難從制造業(yè)或工業(yè)資源的“倉庫”中提取,而是來自于數(shù)據(jù),還有相應(yīng)的收集、分析和使用它的能力。
在未來的大數(shù)據(jù)時代,只有能夠提供功能最為豐富、數(shù)據(jù)量最大的數(shù)據(jù)平臺的公司才可以在企業(yè)的競爭中獲勝;只有能夠擁有最強大的大數(shù)據(jù)產(chǎn)業(yè)的國家才可以在國家的競爭中笑到最后。
大數(shù)據(jù)科學(xué)家舍恩伯格說:“現(xiàn)在有越來越多的數(shù)據(jù),人們可以收集、分析與所要研究的問題相關(guān)的更多信息。通過這些數(shù)據(jù),人們能夠得到很多的洞識,幫助他們做出選擇與決策。”
他認(rèn)為,只有我們分析了所有的相關(guān)現(xiàn)象、所有的數(shù)據(jù)或大多數(shù)的數(shù)據(jù),才能夠發(fā)現(xiàn)以前沒看到過的問題與選擇。因此,人們必須學(xué)會善用更多的數(shù)據(jù)。在這個大的前提下,舍恩伯格為我們指出:大數(shù)據(jù)時代最大的轉(zhuǎn)變就是不再強烈地渴求因果關(guān)系,而是更多地去關(guān)注相關(guān)關(guān)系。(我對這一觀點持有異議,后面的篇幅我們會有重點討論。)
也就是說,舍恩伯格認(rèn)為,在大數(shù)據(jù)時代,我們只要知道了“是什么”,不需要知道“為什么”,就能達到更宏偉的目標(biāo)。這是全新的思維,也正是我們要做的事情。我們必須創(chuàng)造新的交流方式,必須建立新的認(rèn)知,才能跟上大數(shù)據(jù)的步伐,成為新型的現(xiàn)代人。
☆認(rèn)清數(shù)據(jù)的價值:重復(fù)使用
數(shù)據(jù)的價值是什么?關(guān)鍵的一點是,它總在改變,從不是固定不變的。在以前(小數(shù)據(jù)時代),數(shù)據(jù)往往使用一次就失去了意義,但在今天,數(shù)據(jù)卻可以重復(fù)使用。你可以隨時調(diào)取它、使用它,不需要擔(dān)心它損壞或失去功能。
真正價值就在于它可以一而再、再而三地使用。這種“再使用”的價值讓數(shù)據(jù)的重要性比過去陡增了幾百倍甚至成千上萬倍。
由于這一新的特點,互聯(lián)網(wǎng)的作用被無限擴大了,并最終催生了遍布每個行業(yè)的大數(shù)據(jù)產(chǎn)業(yè),因為人人都有重復(fù)使用數(shù)據(jù)的需求。企業(yè)有,個人也有。對整個世界來說,這可能意味著大數(shù)據(jù)產(chǎn)業(yè)將引領(lǐng)經(jīng)濟的發(fā)展,全方位地影響我們的生活。
☆到了為自己建立大數(shù)據(jù)時代思維的時候了嗎?
但是,對普通人而言,我們需要做些什么才可以更適應(yīng)時代,或者才能夠走在這個時代的前沿?
仔細(xì)想一想,你有機會來引領(lǐng)屬于自己的大數(shù)據(jù)時代嗎?在美國有一家創(chuàng)新企業(yè)德克德公司,它可以幫助人們做購買決策,告訴消費者什么時候買什么產(chǎn)品,什么時候買最便宜。它總是能夠精明地預(yù)測產(chǎn)品的價格趨勢。
它是如何做到的?背后強大的驅(qū)動力就是大數(shù)據(jù)的支持。他們在全球的網(wǎng)站上搜集到了數(shù)以十億計的數(shù)據(jù),然后幫助數(shù)以十萬計的用戶省錢,為他們的采購找到最好的時間,提高生產(chǎn)率,降低交易的成本,為那些終端的消費者帶去更多價值。
在這類模式下,盡管一些零售商的利潤會進一步受擠壓,但從商業(yè)本質(zhì)上來講,可以把錢更多地放回到消費者的口袋里,讓人們的購物變得更加富有理性,不至于花大錢辦小事,并可以降低自己購買假貨的概率。
這是依靠大數(shù)據(jù)催生出的一項全新產(chǎn)業(yè)。這家為數(shù)以十萬計的客戶省錢的公司,在不久前,被一家超級企業(yè)以高價收購。
另一個例子與SWIFT公司有關(guān),它是全球最大的支付平臺,在該平臺上的每一筆交易都可以進行大數(shù)據(jù)的分析。他們可以預(yù)測一個經(jīng)濟體的健康性和增長性。比如提供世界某一個地區(qū)的經(jīng)濟指數(shù),你可以實時實地得到對不同地區(qū)的精確統(tǒng)計、計算與預(yù)測。
數(shù)據(jù)可以告訴我們每一名客戶的消費傾向:他們想要什么?喜歡什么?每個人的需求有哪些區(qū)別?哪一些可以整合到一起進行分類分析?具有超前眼光的公司早就據(jù)此布局,實現(xiàn)了對消費者和用戶的數(shù)據(jù)化分析、服務(wù)與預(yù)測。
多數(shù)人沒有能力去創(chuàng)辦一家這樣的公司,但我們可以在大數(shù)據(jù)產(chǎn)業(yè)中發(fā)現(xiàn)自己能夠飾演的角色,例如數(shù)據(jù)工程師、提供思維或開發(fā)程序的人,當(dāng)然還有收集與整理數(shù)據(jù)的人。我們在生活中就可以順利地建立這種思維,成為一名當(dāng)之無愧的“數(shù)據(jù)控”,打理好自己的生活。
☆我們的未來--開發(fā)與充分利用數(shù)據(jù)
你可以仔細(xì)想一想,數(shù)據(jù)的收集、分析和處理,應(yīng)該是怎樣進行的。我們將按照順序來逐一介紹和討論,并提出與一些廣為流行的常識有所區(qū)別的觀點。
第一步:數(shù)據(jù)的收集。
收集是大數(shù)據(jù)供應(yīng)鏈的第一個環(huán)節(jié)。數(shù)據(jù)是大數(shù)據(jù)產(chǎn)業(yè)的原料,沒有原料,任何產(chǎn)業(yè)都沒有辦法發(fā)展。從廣義的角度,信息就是數(shù)據(jù),我們可以通過各種公共或者私人的渠道獲得信息。這些信息各式各樣,來自不同的地方,都被我們匯集起來。
隨著收集數(shù)據(jù)的成本越來越低(因為匯集數(shù)據(jù)的市場日益發(fā)達),我們用比較低的、能夠接受的價格來獲得幾乎所有的寶貴數(shù)據(jù)都是有可能的。這些信息包括一切領(lǐng)域,甚至是你窮極一生都無法了解的人類文明史的全部學(xué)科--從社交網(wǎng)絡(luò)、情感、軍事政治到天氣預(yù)報、經(jīng)濟指標(biāo)和乏味的公共信息,如今都成為了我們的“大數(shù)據(jù)加工廠”的原料。
你可以從互聯(lián)網(wǎng)收集信息,點擊鼠標(biāo)到達任意網(wǎng)站,查看你感興趣的東西,然后記錄;
你可以從智能手機、iPad或其他移動數(shù)據(jù)平臺收集信息,它們總能根據(jù)你的喜好忠實地為你提供信息服務(wù);
你可以通過郵件或流量統(tǒng)計工具收集信息,這是與特定組織相關(guān)的數(shù)據(jù)。比如消費者的訪問量、產(chǎn)品召回度和顧客的忠誠指數(shù)等,你都能付出極低的成本獲得它們。既然收集成為了輕易可達成的目標(biāo),那么在技術(shù)條件允許的情況下,合法性的討論就被提上了桌面。“我可以隨便把信息拿過來嗎?沒有限制嗎?”當(dāng)然有。某些數(shù)據(jù)會受到嚴(yán)格的管制,比如醫(yī)療信息、個人房產(chǎn)和婚姻信息。在不同的情況下,收集信息可能面臨合法與非法兩種判定。如果你涉及對個人身份識別信息的利用,就可能非法;如果不是,則存在法律的模糊區(qū)域。
在世界范圍內(nèi),我們的司法系統(tǒng)對于網(wǎng)絡(luò)信息是否代表個人身份(隱私)的判定并沒有統(tǒng)一的意見,這包括IP地址。但是,最近美國的一些地區(qū)法院已開始立法約束,明確了一些管理條例,比如加州的最高法院裁定郵政編碼為個人信息,對相關(guān)數(shù)據(jù)能被哪些機構(gòu)收集做出了強制性的約束。在電腦和網(wǎng)絡(luò)普及時代,每個人都成為潛在的數(shù)據(jù)來源。就拿手機來說,進入智能機時代后,手機成為絕佳的信息采集和發(fā)送裝置,它可以感知光線、聲音、動作、位置,附近的網(wǎng)絡(luò)、電腦、其他手機(使用人及其位置)等。這是理想的數(shù)據(jù)采集器,手機使用者如果安裝了廠商的軟件,就自動加入了數(shù)據(jù)供應(yīng)鏈。有時他們對此缺乏認(rèn)知,因為人們更多關(guān)注的是使用功能和便捷服務(wù)(包括軟件升級和信息獲得功能)。
這意味著拋開合法與非法的判定,信息正變得海量和無處不在。要達到匹配的收集速度,是一項極具挑戰(zhàn)性的工作。要完成這個工作,我們就需要使用新的技術(shù)和平臺,促進技術(shù)革新,從而推動一系列產(chǎn)業(yè)。
第二步:數(shù)據(jù)的提取和清除。
數(shù)據(jù)收集好,不意味著就萬事大吉了。恰恰相反,工作才剛剛開始。收集好了,就必須把它們提取出來進行整理分類。在情報領(lǐng)域,這被稱為“提取、轉(zhuǎn)換和加載”,要把數(shù)據(jù)存進一個設(shè)計好的數(shù)據(jù)庫,進行一定處理,然后才易于調(diào)取和使用。
大數(shù)據(jù)的一個最顯著特征就是非結(jié)構(gòu)化。它不具有天然的結(jié)構(gòu)性,信息在收集好的最初階段往往是混亂的、雜亂的和缺乏規(guī)律的,什么來源和性質(zhì)的信息都有。這表明我們在提取和分析工作開展前,并不清楚這些信息的內(nèi)在架構(gòu)。
很頭疼是嗎?接下來,對信息轉(zhuǎn)換的需求出現(xiàn)了。我們需要在保持源數(shù)據(jù)的同時,又能快速地分析數(shù)據(jù),把不同的結(jié)構(gòu)定義出來。
第三步:硬件的發(fā)展。
這時,硬件的發(fā)展就被提上了日程。沒有升級的硬件,就無法承載升級的軟件,也就不能滿足龐大的分析工程。我們收集、提取的任何數(shù)據(jù)需要經(jīng)過人或機器的分析,更多的還要靠機器而非人。
在這里,硬件是以計算、存儲和聯(lián)網(wǎng)的形式存在的,多以電腦為載體,成為數(shù)據(jù)服務(wù)器的一部分。大數(shù)據(jù)并不會改變這一點,但是它改變了傳統(tǒng)硬件的用途,也使云計算成為了寵兒。因為云計算使得數(shù)據(jù)虛擬化和實時化,既可以接納海量數(shù)據(jù)進行分析,又能隨時清除這些數(shù)據(jù),做到按需分析,這使對海量數(shù)據(jù)進行精確分析成為了可能。
第四步:平臺的重要性。
我們要創(chuàng)造可用來快速處理海量信息的平臺和框架,沒有這個平臺,前述工作將變得不可能。在這個平臺上,我們加快數(shù)據(jù)分析的方法就是將數(shù)據(jù)分解,再對若干部分分別進行分析。當(dāng)然還有另外的途徑,即建立一個文檔處理步驟的路徑,每一個步驟都對特定的任務(wù)進行最優(yōu)化的分析。
平臺還要具備一個重要特點:迅速出結(jié)果,而不是只能處理大量的數(shù)據(jù)卻無法保證實時性。這一點相當(dāng)重要,因為人們既需要實時信息,又需要反復(fù)地分析這些數(shù)據(jù)。比如提供網(wǎng)絡(luò)搜索結(jié)果,百度不可能在24小時后才顯示搜索頁面,必須瞬間呈現(xiàn)才能滿足用戶需求;航班、酒店信息等也必須實時呈現(xiàn)。實現(xiàn)這些目標(biāo)的唯一方法,就是平臺具備分派任務(wù)的功能,這就是為什么大型網(wǎng)絡(luò)公司都有上百個服務(wù)器。最后,平臺也要滿足人們反復(fù)使用的需求,這對技術(shù)的要求更高。
第五步:機器智能。
在大數(shù)據(jù)供應(yīng)鏈中,機器的智能相當(dāng)關(guān)鍵。因為數(shù)據(jù)太多了,無法用手工處理。特別是對于今天我們想要分析的大部分?jǐn)?shù)據(jù)--整個大數(shù)據(jù)產(chǎn)業(yè)來說,離開了機器的幫助寸步難行。機器的智能化是必然的趨勢,誰占領(lǐng)了機器智能的最高陣地,誰就在大數(shù)據(jù)產(chǎn)業(yè)中占得了先機,擁有了核心技術(shù),就不會受制于人,而會達到“制人”的境界。
在數(shù)據(jù)和信息的收集、提取階段,機器就已經(jīng)介入幫忙了。比如,對大量信息進行推導(dǎo),歸納出數(shù)據(jù)的含義;對幾千名客服每日、每周的服務(wù)滿意度進行總結(jié);對車票、機票的訂票量進行統(tǒng)計。你不可能讓人工參與其中,因為他們太慢,滿足不了實時性的要求。
機器不但參與其中,它的學(xué)習(xí)能力也很重要。如果我們要分析信息,就要試著在更高難度的環(huán)境中嘗試更快的速度,自然就要不斷提升機器的智能。換言之,在大數(shù)據(jù)時代,我們的機器將越來越聰明。它們會逐漸變得可以更深入地思考,擁有一定的情感模式和邏輯判斷力。雖然我們還無法預(yù)測智能機器的未來,但它們已經(jīng)表現(xiàn)得像人類智慧的初期階段了。
第六步:人類的作用。
雖然機器的智能對數(shù)據(jù)分析相當(dāng)重要,但是永遠(yuǎn)不可能替代人類。人的眼睛、耳朵和大腦仍然(可能是永遠(yuǎn))是這個世界上最智能的工具。機器不管如何進步,最終都只是為了延伸視覺的維度,以人類可讀的形式提供數(shù)據(jù)。
所以,重要的不是機器或人一方,而是“人機互動”。大部分的分析師都清醒地知道,人是數(shù)據(jù)的主宰者,機器只是一個打工仔。凱瑞爾(Creve)是人機互動研究的先行者,他設(shè)計出了利用幾十個獨立數(shù)據(jù)源的系統(tǒng),功能十分強大,不但能在可操作的3D環(huán)境下對系統(tǒng)進行顯示,而且能輔之以聲音和其他信號。他的研究表明,如果人們用這種方式輸入數(shù)據(jù),分析員不用花幾個小時,而是只需幾分鐘便能尋找到答案。
人類的作用在于控制機器,成為數(shù)據(jù)的主人,在此基礎(chǔ)上提升人機互動的速度和并行性。當(dāng)然,人類還需要給機器設(shè)計新的界面和多重感應(yīng)環(huán)境,以方便數(shù)據(jù)分析師和機器一起埋頭苦干,高效地處理數(shù)據(jù)。
第七步:數(shù)據(jù)的存儲。
我們必須考慮數(shù)據(jù)的存儲。實際上這個問題在一開始就會成為人們重點設(shè)計的環(huán)節(jié),因為大數(shù)據(jù)所占的儲存空間實在太大了。
在龐大的數(shù)據(jù)中,除了一些源信息,還存在著大量的已作了改變的數(shù)據(jù)。我們收集、整理、改動、加工它們;另外也有通過分析得出的簡表和表格,并由此產(chǎn)生了許多格式文件。為了盡可能多地提供空間,我們要研發(fā)新科技,讓數(shù)據(jù)擁有更寬敞的“家”。
通常來說,儲存是指什么?一位數(shù)據(jù)專家說:“儲存就是使用傳統(tǒng)的平面文件和相關(guān)的數(shù)據(jù)集加上后結(jié)構(gòu)化查詢語言(post-SQL)儲存系統(tǒng)對云數(shù)據(jù)和初始數(shù)據(jù)進行保存。”如果在大數(shù)據(jù)供應(yīng)鏈中缺乏這一環(huán)節(jié),我們就無法備份所有東西,數(shù)據(jù)庫就難以達標(biāo),不能支持龐大的工作量。這就像一個人雖然饑餓卻只有很小的胃一樣。
第八步:達成分享數(shù)據(jù)和協(xié)同行動的目標(biāo)。