官术网_书友最值得收藏!

1.4.3 通過相關關系了解世界

傳統情況下,人類是通過因果關系了解世界的。首先,人們的直接愿望就是了解因果關系。即使無因果聯系存在,人們也還是會假定其存在。研究證明,這只是人們的認知方式,與每個人的文化背景、生長環境以及教育水平無關。當看到兩件事情接連發生的時候,人們會習慣性地從因果關系的角度來看待它們。在小數據時代,很難證明由直覺而來的因果聯系是錯誤的。

將來,大數據之間的相關關系,將經常會用來證明直覺的因果聯系是錯誤的。最終也能表明,統計關系也不蘊含多少真實的因果關系。總之,人們的快速思維模式將會遭受各種各樣的現實考驗。

與因果關系不同,證明相關關系的實驗耗資少,費時也少。與之相比,分析相關關系既有數學方法,也有統計學方法,同時,數字工具也能幫人們準確地找出相關關系。

相關關系分析本身意義重大,同時它也為研究因果關系奠定了基礎。通過找出可能相關的事物,人們可以在此基礎上進行進一步的因果關系分析。如果存在因果關系,人們再進一步找出原因,這種便捷的機制通過實驗降低了因果分析的成本。也可以從相互聯系中找到一些重要的變量,這些變量可以用到驗證因果關系的實驗中。

例如,Kaggle公司舉辦了關于二手車的質量競賽。二手車經銷商將二手車數據提供給參加比賽的統計學家,統計學家們用這些數據建立一個算法系統來預測經銷商拍賣的哪些車有可能出現質量問題。相關關系分析表明,橙色的車有質量問題的可能性只有其他車的一半。

這難道是因為橙色車的車主更愛車,所以車被保護得更好嗎?或是這種顏色的車子在制造方面更精良些嗎?還是因為橙色的車更顯眼、出車禍的概率更小,所以轉手時,各方面的性能保持得更好?

人們應該陷入各種各樣謎一樣的假設中。若要找出相關關系,可以用數學方法,但如果是因果關系的話,這卻是行不通的。所以,沒必要一定要找出相關關系背后的原因,當人們知道了“是什么”的時候,“為什么”其實沒那么重要了,否則就會催生一些滑稽的想法。比方說上面提到的例子里,是不是應該建議車主把車漆成橙色呢?畢竟,

考慮到這些,如果把以確鑿數據為基礎的相關關系和通過快速思維構想出的因果關系相比,前者就更具有說服力。但在越來越多的情況下,快速清晰的相關關系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現為通過嚴格控制的實驗來驗證的因果關系,而這必然是非常耗時耗力的。

在大多數情況下,一旦完成了對大數據的相關關系分析,而又不再滿足于僅僅知道“是什么”時,人們就會繼續向更深層次研究因果關系,找出背后的“為什么”。

因果關系還是有用的,但是它將不再被看成是意義來源的基礎。在大數據時代,即使很多情況下,我們依然指望用因果關系來說明所發現的相互聯系,但是,我們知道因果關系只是一種特殊的相關關系。相反,大數據推動了相關關系分析。相關關系分析通常情況下能取代因果關系起作用,即使不可取代的情況下,它也能指導因果關系起作用。

主站蜘蛛池模板: 桓台县| 航空| 井冈山市| 绵竹市| 简阳市| 额济纳旗| 红安县| 陕西省| 杭锦后旗| 曲麻莱县| 冀州市| 旅游| 桂林市| 临汾市| 垦利县| 沙河市| 长垣县| 萝北县| 民勤县| 剑阁县| 乌兰察布市| 锡林郭勒盟| 甘孜| 逊克县| 皮山县| 吉隆县| 静乐县| 黄龙县| 剑河县| 那坡县| 南京市| 河南省| 沾益县| 临海市| 韶关市| 台东县| 华安县| 合阳县| 永和县| 舟曲县| 大关县|