1.4.1 關聯物,預測的關鍵
雖然在小數據世界中相關關系也是有用的,但如今在大數據的背景下,通過應用相關關系,人們可以比以前更容易、更快捷、更清楚地分析事物。
所謂相關關系,其核心是指量化兩個數據值之間的數理關系。相關關系強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加。我們已經看到過這種很強的相關關系,如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜索特定的詞條,該地區就有更多的人患了流感。相反,相關關系弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。例如,我們可以尋找關于個人的鞋碼和幸福的相關關系,但會發現它們幾乎扯不上什么關系。
相關關系通過識別有用的關聯物來幫助人們分析一個現象,而不是通過揭示其內部的運作機制。當然,即使是很強的相關關系也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能只是巧合。相關關系沒有絕對,只有可能性。也就是說,不是亞馬遜推薦的每本書都是顧客想買的書。但是,如果相關關系強,一個相關鏈接成功的概率還是很高的。這一點很多人可以證明,他們的書架上有很多書都是因為亞馬遜推薦而購買的。
通過找到一個現象的良好的關聯物,相關關系可以幫助人們捕捉現在和預測未來。如果A和B經常一起發生,那我們只需要注意到B發生了,就可以預測A也發生了。這有助于我們捕捉可能和A一起發生的事情,即使不能直接測量或觀察到A。更重要的是,它還可以幫助我們預測未來可能發生什么。當然,相關關系是無法預知未來的,它們只能預測可能發生的事情,但是,這已極其珍貴。
在大數據時代,建立在相關關系分析法基礎上的預測是大數據的核心。這種預測發生的頻率非常高,以至于人們經常忽略了它的創新性。當然,它的應用會越來越多。
在社會環境下尋找關聯物只是大數據分析法采取的一種方式。同樣有用的一種方法是,通過找出新種類數據之間的相互聯系來解決日常需要。比如說,一種稱為預測分析法的方法就被廣泛地應用于商業領域,它可以預測事件的發生。這可以指一個能發現可能的流行歌曲的算法系統——音樂界廣泛采用這種方法來確保它們看好的歌曲真的會流行;也可以指那些用來防止機器失效和建筑倒塌的方法。現在,在機器、發動機和橋梁等基礎設施上放置傳感器變得越來越平常,這些傳感器被用來記錄散發的熱量、振幅、承壓和發出的聲音等。
一個東西要出故障,不會是瞬間的,而是慢慢地出問題。通過搜集所有的數據,人們可以預先捕捉到事物要出故障的信號,比如發動機的嗡嗡聲、引擎過熱都說明它們可能要出故障了。系統把這些異常情況與正常情況進行對比,就會知道什么地方出了毛病。通過盡早發現異常,系統可以提醒人們在故障之前更換零件或者修復問題。通過找出一個關聯物并監控它,人們就能預測未來。