大數據的魔力
大數據有數據量大、數據多樣性等特征。實際是將各個維度的數據進行綜合分析進而進行一定的預測。當不同的數據流被整合到大型數據庫中后,預測的廣度和精度都會大規模的提高。
例如,當一個數據庫從不同的數據來源獲得了你使用手機的時間和地點、信用卡購物、銀行卡電子收費系統、使用QQ等聊天工具的對象、你的QQ好友關系圖、你在新浪或騰訊微博的收聽及被收聽關系圖譜、你交納的水電燃氣費等各方面的數據,數據分析師就能通過匹配獲得你生活的不同側面。通過大數據,數據分析可以發現各種各樣的關聯。通過分析,可以發現你多方面的需求,并不僅僅是諸如懷孕書籍和尿不濕之間的簡單關聯了。
在一篇名為《一個哲學家,幫中情局找到了本·拉登》的文章中記錄了這樣的事。硅谷最傳奇的大數據分析公司——Palantir,從國家安全局、聯邦調查局、中央情報局、國防情報局到陸軍、海軍陸戰隊、空軍和特種作戰司令部,美國幾乎所有的情報和軍事機構都在用他們的產品。2011年,在阿富汗、敘利亞和巴基斯坦,這個公司幫美國中情局找到了大量基地組織和塔利班高層,最后連本·拉登的藏身地都被他們挖了出來。
當時中情局非常依賴線人報告和無人機的偵察報告,由于判斷不準無人機經常炸錯人。由于類似的事一再發生,連中情局內部的人都吐槽說,“在阿富汗,長得高的人真是沒法活”。而Palantir的軟件能夠分析比對上千個數據庫內的審訊記錄、財務信息、DNA樣本、聲音樣本、視頻、地圖和世界各地的報告,并發現其中的關聯和可疑之處,挖掘出最有價值的信息,在大海里成功撈出了縫衣針,最終協助中情局成功捕捉到了本·拉登的行蹤。
有幾個美國藥品管制局的官員聽說他們的軟件很神,也跑來找他們幫忙。連本·拉登都找得到,幾個小毛賊又算得了什么?Palantir的工程師只花了幾天就完成了數據分析。執法人員照著他們的分析結果去調查,最后居然逮到了676個毒販,順便還抄出了467公斤可卡因和29公斤冰毒。
他們靠的是什么?靠的就是大數據分析技術。而你這時也能想到,大數據的核心就是巧妙、科學地根據分析技術和技能,從海量看似毫無意義的數據中,經過匯總分析,得出想要的結果。而數據的來源無所不包,從用戶上網數據到消費記錄、出行記錄、醫療記錄等等。在數據足夠“大”的情況下,你生活中幾乎所有的需求都可能會被預測出來。
又例如,通過分析大量用戶的搜索記錄,比如“咳嗽”、“發燒”等特定詞條,谷歌公司能準確預測美國冬季流感傳播趨勢。和官方機構相比,谷歌能提前一兩周預測流感爆發,預測結果與官方數據的相關性高達97%。2009年,在甲型H1N1流感爆發的幾周前,谷歌的工程師們公開發表了一篇論文,不僅預測流感即將爆發,并且其預測還精確到美國特定的地區和州。這讓人們感到十分震驚。準確預測流感疫情,說起來并不復雜,谷歌一直致力于對用戶檢索數據的分析。用戶求醫問藥等搜索數據可謂海量,把這些數據再拿來與美國疾控中心往年記錄的實際流感病例信息相比對,就幫助谷歌做出了準確預測。
對個體而言,大數據可以為個人提供個性化的醫療服務。過去我們去看病,醫生只能對我們的當下身體情況做出判斷,而在大數據的幫助下,將來的診療可以對一個患者的累計歷史數據進行分析,并結合遺傳變異、對特定疾病的易感性和對特殊藥物的反應等關系,實現個性化的醫療。還可以在患者發生疾病癥狀前,提供早期的檢測和診斷。早期發現和治療可以顯著降低肺癌給衛生系統造成的負擔,因為早期的手術費用是后期治療費用的一半。
再舉例來說,在傳統教育模式下,分數就是一切,一個班上幾十個人,使用同樣的教材,同一個老師上課,課后布置同樣的作業。然而,學生是千差萬別的,在這個模式下,不可能真正做到“因材施教”。
比如一個學生考試得了88分,這個分數僅僅是一個數字,它能代表什么呢?88分背后是家庭背景、努力程度、學習態度、智力水平等,把它們和88分聯系在一起,這就成了“數據”。大數據因其數據來源的廣度,有能力去關注每一個學生的微觀表現——他在什么時候開始看書,在什么樣的講課方式下效果最好,在什么時候學習什么科目效果最好,在不同類型的題目上停留多久等等。這些數據對其他個體都沒有意義,是高度個性化表現特征的體現。同時,這些數據的產生完全是過程性的:課堂的過程,作業的過程,師生或同學的互動過程……而最有價值的是,這些數據完全是在學生不自知的情況下被觀察、收集的,只需要一定的觀測技術與設備的輔助,而不影響學生任何的日常學習與生活,因此它的采集也非常自然、真實。
在大數據的支持下,教育將呈現另外的特征:彈性學制、個性化輔導、社區和家庭學習……大數據支撐下的教育,就是要根據每一個人的特點,解放每一個人本來就有的學習能力和天分。
大數據時代的隱私保護
當然,讓人們擔心的是,大數據包含有包羅萬象的數據,其中不少數據涉及個人的職位、年齡、身體狀況、消費水平、旅行習慣等隱私,那么,在大數據時代,個人隱私能夠得到保護嗎?這只有靠國家相關部門實時推進隱私保護、企業主動落實隱私保護責任,大數據產業在飛速發展的同時才不會對民眾隱私產生威脅。
在大數據產業中,對個人隱私的保護有兩個基本的作法,或者說原則:
一是符號化。符號化是指識別用戶的時候,識別的僅僅是一個“符號”,這個符號與真實信息并不相關,系統通過一定的算法能夠知道多次登錄的是同一個用戶,但并沒有辦法反推出這個人是誰,從而,電話、住址等信息都沒法與本人關聯起來。
二是用戶特征。用戶特征意味著在大數據時代企業感興趣的往往是這個用戶的特征,而不是家庭地址、電話號碼等真正敏感的信息。例如,系統需要了解本科以上學歷、月收入10000元以上、已婚等這樣一個群體,只需要找出符合這些特征的人的特性,并不關心這個人是誰。這樣也不會造成隱私的泄露。
3.云計算
為什么叫云計算
據說是很多人被“云計算”的復雜解釋完全弄糊涂了,掉到了云里霧里,于是出現了“云計算”這個叫法。不知道以后還會不會出現“霾計算”(Smog Computing)?
還是舉例子吧。假定你在家上網、看電視、照明用的電是從你家旁邊的水電站發出來的。突然有一天這個水電站上的河流缺水、發不出電了,怎么辦?幸好,水電站的電網和其他地區的電網是聯通的,只要全國的河流沒有集體斷流罷工、電網沒出故障,還是可以保證你隨時有電可用。
這個例子還不夠準確,但它至少讓你明白,云計算,是讓你可以享受一種在線的資源。
好了,現在這個電網上傳送的不是電力,而是數據計算力,電網另一端也不是無數的水電站,而是無數臺計算機。“云”就是計算機群,每一群包括了幾十萬臺、甚至上百萬臺計算機。你只需要一臺能上網的電腦,不需關心存儲、計算發生在哪朵“云”上,就好比不管你的電是哪個電站發過來的,服務商已經替你分配好了。但一旦有需要,你可以在任何地點用任何設備,如電腦、平板電腦、手機等快速地計算和找到這些資料。這樣一聽起來,這個“云”就美好了許多。
“云”的好處還在于,其中的計算機可以隨時更新,保證“云”長生不老,你再也不用擔心資料丟失。目前,Google云計算已經擁有100多萬臺服務器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務器。企業私有云一般擁有數百上千臺服務器。“云”能賦予用戶前所未有的計算能力。
有人這樣比喻,單機時代用個人電腦來管理信息,就像把錢塞到枕頭下面或柜子里;而用云計算共享數據和應用,等于把錢存進銀行,可以利用ATM、電話銀行或網上銀行管理賬號,還有銀行的專業人士幫你理財,當然,這個“銀行”里存的不是錢,而是海量的信息,并且它有強大的處理信息的能力。
由于計算和存儲任務都是由計算云完成的,你只需要發出簡單的指令,也就好比你電腦的CPU和硬盤等硬件都由“云”提供,而你只需要一根網線和瀏覽器軟件,就可實現無限量存儲并具備超強計算,且有專業的技術人員幫你維護軟、硬件,防范病毒及網絡攻擊,替你做你以前在個人電腦上所做的一切。所以,云計算對用戶端設備要求非常低而功能強悍。
由于你使用的是網絡的計算資源,理論上說,你可以完成超級計算機才能完成的龐大計算工作。對于企業級用戶來說,不再需要購買服務器,而是直接去云數據中心購買計算和存儲服務。你可以按需購買,云計算可以像自來水、電、煤氣那樣計費。
可以這樣說,云計算就是“互聯網+計算”,是用互聯網提供智能化計算資源的服務模式。這里的云指的就是互聯網。云計算的實現,則為“互聯網+”提供了保駕護航的作用。
云計算的應用實例
推出廣受好評的原創動漫游戲《崩壞學園2》的米哈游公司采用了阿里計算服務。當《崩壞學園2》登陸iOS平臺當天,便沖到了收費榜的第一名,限免期間又進入免費榜、暢銷榜雙榜前十。得益于阿里云計算的彈性,《崩壞學園2》在單服日活躍用戶超過40萬的時候,依舊沒有另外開設服務器,這就確保了所有用戶都可以在同一個世界里“愉快地玩耍”。
另一個例子是,作為國內最大、全球第四大貨幣基金的“余額寶”,其良好的用戶體驗就有賴于大規模計算能力的強力支撐。其基于阿里云計算平臺實時處理的交易請求高達每秒11000筆,而傳統架構下服務器的處理能力每秒不足1000筆,效率提升了十倍多,只用30分鐘就能完成之前需要8小時才能完成的數據處理工作。