官术网_书友最值得收藏!

第一章
破:識別謬誤

第1講 相關(guān)不等于因果
女性到了中年收入會(huì)下降,所以一定要結(jié)婚?

你在生活中是否也曾被這樣勸導(dǎo)過:我母親讓我鍛煉延遲滿足的能力,她說因?yàn)橛袑?shí)驗(yàn)證明,懂得延遲滿足的小孩會(huì)更成功;還有朋友拿著一張10年前的照片跟我說:“阿龐,你看照片上的你那么瘦,顯得年輕10歲,所以你快減肥吧。”他們的心情我可以理解,但他們說服不了我,因?yàn)檫@些勸導(dǎo)有一個(gè)共同的邏輯錯(cuò)誤,就是錯(cuò)把相關(guān)性當(dāng)因果性。相關(guān)性是指兩件事有關(guān)系、會(huì)同時(shí)發(fā)生,而因果性代表一件事是另一件事發(fā)生的原因。

為什么開篇就要講相關(guān)和因果?因?yàn)椤板e(cuò)把相關(guān)當(dāng)因果”是我們生活和工作中最常見的邏輯錯(cuò)誤之一。兩件事情到底有沒有因果關(guān)系,也是許多科學(xué)研究要重點(diǎn)區(qū)分和解決的問題。比如吸煙與患肺癌有因果關(guān)系嗎?低雌性激素水平與高心臟病發(fā)病率有因果關(guān)系嗎?這一季度的銷量增長是因?yàn)榛隋X做廣告,或僅僅是巧合?

相關(guān)性不等于因果性

讓我們先用一個(gè)最簡單且真實(shí)的例子來看看相關(guān)性和因果性的差別。

20世紀(jì)初,美國暴發(fā)過一場非常嚴(yán)重的小兒麻痹癥,那時(shí)還沒有人能確定病因,科學(xué)家通過數(shù)據(jù)分析終于發(fā)現(xiàn)了所謂的“罪魁禍?zhǔn)住薄苛?。為什么是冰淇淋?因?yàn)樗麄儼l(fā)現(xiàn),冰淇淋的銷量和小兒麻痹癥發(fā)病率這兩條曲線的起落在時(shí)間上幾乎一致。有些人以為冰淇淋太涼或太甜導(dǎo)致小孩得了小兒麻痹癥,嚇得當(dāng)時(shí)家長禁止小孩吃冰淇淋。

但這個(gè)結(jié)論正確嗎?其實(shí)不。兩者雖然看似相關(guān),但并沒有因果關(guān)系。只是因?yàn)樵谙奶煨『⒏矚g吃冰淇淋,而在夏天小孩與病毒接觸的機(jī)會(huì)也更多,所以小兒麻痹癥容易在夏天高發(fā),因此這兩者在時(shí)間上完全契合。但小孩并不是因?yàn)槌粤吮苛芏昧诵郝楸园Y,就算家長不讓小孩吃,也不能減少或預(yù)防小兒麻痹癥。

通過這個(gè)例子,我們應(yīng)該已經(jīng)意識到了相關(guān)性和因果性的差別:相關(guān)性只代表A和B同時(shí)發(fā)生,不代表A是B的因。這也就是說,如果A和B只有相關(guān)性,我們是不能通過改變A去影響B(tài)的。但相關(guān)性有一定的預(yù)測作用,我們可以通過看到了A來預(yù)測B也會(huì)發(fā)生。例如,當(dāng)發(fā)現(xiàn)冰淇淋的銷量在上漲,這意味著小兒麻痹癥的發(fā)病率可能也要上升了,因此相關(guān)部門可以提前做好相應(yīng)的醫(yī)療準(zhǔn)備。

錯(cuò)把相關(guān)當(dāng)因果,會(huì)影響決策和方向

你或許聽過一個(gè)非常有名的關(guān)于延遲滿足的實(shí)驗(yàn),叫斯坦福棉花糖實(shí)驗(yàn)。心理學(xué)家告訴一群小孩:“面前這個(gè)棉花糖,你要是能堅(jiān)持15分鐘不吃,我就會(huì)再給你一個(gè)?!比缓笏麄儼l(fā)現(xiàn)那些能夠忍住不吃的小孩在未來獲得成功的概率會(huì)更高,所以他們得出結(jié)論:延遲滿足與獲得成功之間有因果關(guān)系。因?yàn)槟憧梢宰龅窖舆t滿足,所以你會(huì)獲得成功。

如果接受這個(gè)結(jié)論,那就代表如果我想要獲得成功,我就可以通過培養(yǎng)自己的延遲滿足能力來達(dá)到。乍一聽這是老生常談,很多成功學(xué)、育兒經(jīng)都在講如何提高延遲滿足的能力,比如把好飯好菜端到餐桌上但不讓孩子吃,諸如此類的“訓(xùn)練”。

但如果這個(gè)實(shí)驗(yàn)并沒有成功地證明這兩者的因果關(guān)系呢?的確,這個(gè)實(shí)驗(yàn)在后來受到很多挑戰(zhàn)。最常見的挑戰(zhàn)是:延遲滿足與獲得成功之間并沒有因果關(guān)系,它們僅僅有相關(guān)性,真實(shí)因素是孩子家庭所屬的社會(huì)經(jīng)濟(jì)地位。

簡單來說,富人家的小孩平時(shí)想啥有啥,糖果并不是稀缺品,對他們來說,忍耐15分鐘太小意思了。但窮人家的孩子平時(shí)吃個(gè)糖果就像過年,棉花糖對他們的吸引力太大了,這種忍耐更加困難。所以富人家的小孩更能忍住不吃,看上去延遲滿足的能力也就更高。同時(shí),由于家庭條件優(yōu)越,他們有機(jī)會(huì)接受更好的教育、擁有更好的資源,成功的概率自然更大。這樣看來,延遲滿足的能力和獲得成功這兩者只有相關(guān)性,它們是同一個(gè)因產(chǎn)生的兩個(gè)果:因?yàn)楦挥校钥梢圆怀阅莻€(gè)棉花糖;因?yàn)楦挥?,所以成功的概率更大。這也就意味著,我們并不能通過鍛煉延遲滿足的能力來獲得更高的成功概率。

這個(gè)案例也展示了一旦錯(cuò)把相關(guān)性當(dāng)成因果性可能會(huì)出現(xiàn)的問題:它會(huì)指引我們采取錯(cuò)的行動(dòng)。既然它指引了錯(cuò)的方向,那么行動(dòng)也會(huì)是徒勞無功的,甚至有時(shí)會(huì)耽誤實(shí)施真正重要的解決方案。

曾經(jīng)有一個(gè)這樣的辯題:父母決意要離婚,要堅(jiān)持到孩子高考結(jié)束嗎?我是反方,支持該離就離,不要刻意堅(jiān)持和拖沓。我知道正方一定會(huì)舉很多父母離婚后孩子受到重大負(fù)面影響的例子和數(shù)據(jù),來證明離婚這個(gè)行為本身對孩子的傷害非常大,所以要拖到孩子長大一些,不要影響孩子高考。

可是讓我們想一想,單親家庭對孩子的傷害一定是離婚這個(gè)行為本身造成的嗎?“離婚”這個(gè)行為和“對孩子造成傷害”這個(gè)結(jié)果,它們真的有因果關(guān)系嗎?還是僅僅只有相關(guān)性?

比如單親媽媽帶著孩子,爸爸不聞不問,一找他要撫養(yǎng)費(fèi)就吵架,我們覺得沒爹的孩子真可憐。可問題是這跟離婚有關(guān)系嗎?這樣的爹沒離婚的時(shí)候也不負(fù)責(zé)任??!爹不靠譜,所以爹媽離婚了;爹不靠譜,所以孩子受傷;所以爹媽離婚和孩子受傷都是結(jié)果,它們同時(shí)發(fā)生,但沒有因果關(guān)系,這是歸因錯(cuò)誤。伴侶不靠譜的時(shí)候,靠延遲離婚就能爭取到幸福嗎?不能啊!快點(diǎn)離開ta,或者找伴侶時(shí)不能太湊合才是真正的解決之道。

再比如,我們或許見過一些離異家庭的孩子不信任親密關(guān)系,然后得出結(jié)論:因?yàn)楦改鸽x婚,所以孩子不信任親密關(guān)系了。但真的是這樣嗎?有沒有可能是因?yàn)楦改傅幕橐鲇^、教育觀落后,所以處理不好感情導(dǎo)致婚姻破裂;同樣也因此沒有能力去引導(dǎo)孩子,讓孩子感受到愛、學(xué)會(huì)愛?所以這也是一個(gè)因產(chǎn)生的兩個(gè)果。

不懂得如何處理感情、教導(dǎo)孩子,僅靠推遲離婚就能避免對孩子的傷害嗎?不能??!只有改變那個(gè)真正的因,才有可能影響那個(gè)果——唯有改善自己的婚姻觀和提升自己的教育能力,才能降低對孩子的傷害。如果不能解決這個(gè)因,拖著不離,只會(huì)加大傷害。

相關(guān)卻不是因果的三種可能

為什么相關(guān)性特別容易被解讀為因果性?因?yàn)楫?dāng)我們看到兩件事情同時(shí)發(fā)生,直覺上就覺得它們一定有點(diǎn)什么關(guān)系,尤其是當(dāng)這種因果的解釋符合某種預(yù)設(shè)或者偏見時(shí)。但實(shí)際上,當(dāng)我們在日常觀察或數(shù)據(jù)中看到A和B有相關(guān)性時(shí),兩者關(guān)系不一定是“因?yàn)锳所以B”,還有其他三種可能性。

第一種,因?yàn)锽所以A,因果倒置。第二種,C導(dǎo)致A和B同時(shí)發(fā)生,所以A和B沒有因果關(guān)系。第三種,A和B的相關(guān)僅僅是巧合。

所以,當(dāng)我們看到相關(guān)性時(shí),需要三連問:是巧合嗎?是不是因果倒置?有沒有第三個(gè)因素導(dǎo)致A和B同時(shí)發(fā)生?關(guān)于巧合的情況這里就不具體展開,畢竟能被我們看到的數(shù)據(jù)絕大多數(shù)都經(jīng)過了回歸分析,排除了巧合的可能性。其他兩個(gè)可能性,接下來通過舉例來逐一討論。

因果倒置

先看“因果倒置”:不是“因?yàn)锳所以B”,而是“因?yàn)锽所以A”。

有一個(gè)說法,“女人到了中年收入會(huì)下降,所以一定要成家,依靠婚姻才會(huì)有保障”。這符合很多人的想象——女人不善于掙錢,得靠男人和家庭。但其實(shí),“女人到了中年收入會(huì)下降”的說法并不準(zhǔn)確,其實(shí)女職工是生育后工資才下降的。據(jù)統(tǒng)計(jì),有34.3%的女職工生育后工資待遇下降,其中降幅超過一半的人數(shù)達(dá)42.9%。

所以是因?yàn)榕允杖胂陆盗瞬乓揽考彝サ膯??不是。恰恰是因?yàn)榕酝度肓思彝ィ瑸榧彝ジ冻鲞^多,導(dǎo)致在工作上投入的時(shí)間減少了,所以收入降低了。并不是家庭解決了女性收入降低的問題,反而是家庭導(dǎo)致了女性收入降低的問題,這是因果倒置。

類似的邏輯在工作環(huán)境中也有很多。比如有數(shù)據(jù)顯示,數(shù)字化程度高的企業(yè)業(yè)績更好,但這是否意味著企業(yè)可以通過投資數(shù)字化轉(zhuǎn)型來提升業(yè)績呢?不一定,這個(gè)數(shù)據(jù)本身只證明了相關(guān),沒有證明因果。說不定是因?yàn)闃I(yè)績好的企業(yè)才有錢去做數(shù)字化轉(zhuǎn)型,并不是因?yàn)樽隽藬?shù)字化轉(zhuǎn)型所以業(yè)績好。

但這代不代表這個(gè)數(shù)據(jù)就完全沒有意義?也不是。回想一下,相關(guān)性的作用是什么?是預(yù)測性。如果今天我想找一個(gè)業(yè)績好、前途好的公司,當(dāng)看到他們的數(shù)字化程度高,甭管它因果,我至少確定這兩件事情同時(shí)發(fā)生。

C同時(shí)帶來A和B

另一個(gè)“相關(guān)不等于因果”的可能性,是C同時(shí)帶來A和B的結(jié)構(gòu),這種例子其實(shí)是最隱秘的。

比如有數(shù)據(jù)顯示,哈佛大學(xué)畢業(yè)生的收入比其他學(xué)校畢業(yè)生的要高。如果把這種關(guān)系直接理解為因果關(guān)系——它非常符合我們的預(yù)設(shè)或直覺:因?yàn)樯狭斯?,所以未來收入提高了,也就是說哈佛的教育能夠提高人賺錢的能力。

但是這個(gè)數(shù)據(jù)考慮了那個(gè)可能的、背后的因C嗎?如果看看哈佛畢業(yè)生的家庭條件,15%的哈佛學(xué)生的父母收入屬于全美前1%。請問,這些學(xué)生畢業(yè)之后收入高,到底是哈佛教育的功勞,還是人家父母的功勞?因?yàn)楦改杆礁?,所以孩子上了哈佛;因?yàn)楦改杆礁?,所以孩子畢業(yè)之后收入高。完全有可能是C導(dǎo)致了A和B同時(shí)發(fā)生。如果我們控制變量,比較同等家庭收入水平的孩子——他們分別去了哈佛和其他學(xué)?!麄兾磥淼氖杖氩罹嘤羞@么大嗎?有真實(shí)的數(shù)據(jù)證明,沒有那么大。

還要強(qiáng)調(diào)的是,因果關(guān)系不一定是有或者無,而是有程度的差別。我們并不否認(rèn)哈佛教育對提高學(xué)生畢業(yè)后收入的作用,只是說在沒有控制學(xué)生父母的收入情況這一變量前,它的作用看起來非常大,如果控制了變量,它的作用就變得小了很多。

這就像許多公司的HR招聘時(shí)都青睞名校畢業(yè)生,甚至將其設(shè)為硬性門檻。但這真的代表HR認(rèn)為名校培養(yǎng)人才的能力更高嗎?不一定。名校和人才之間可能只有相關(guān)性。入學(xué)門檻高才是背后真正的因C。因?yàn)槿雽W(xué)門檻高,所以這個(gè)學(xué)校被定義為名校;因?yàn)槿雽W(xué)門檻高,所以畢業(yè)生的人才密度就更大。好學(xué)生進(jìn)來,好學(xué)生出去。所以HR傾向于招名校畢業(yè)生,不一定是因?yàn)樗麄兿嘈疟澈蟮囊蚬P(guān)系,很可能僅僅是利用了相關(guān)性所帶來的預(yù)測作用。

如何識別和反駁相關(guān)與因果的混淆

認(rèn)識到這三種可能性后,我們該如何識別和反駁相關(guān)與因果的混淆?

第一,要有辯手一般的質(zhì)疑精神,聽到兩件事同時(shí)發(fā)生或呈正相關(guān)時(shí),先問問:真的嗎?一定嗎?您說了相關(guān),您證了因果嗎?怎么證的呢?控制了哪些變量?

第二,如果對方說A帶來B,我們就嘗試反著說B帶來A,聽聽能否說得通。如果能,問問對方排除這個(gè)可能性了嗎?

第三,想想可能有什么樣的C會(huì)同時(shí)帶來A和B?問問對方控制這個(gè)變量了嗎?

這里我們還可以簡單引入兩個(gè)統(tǒng)計(jì)學(xué)的概念。

第一個(gè)概念叫“all else equal”,即控制變量。像最常見的家庭背景、收入、教育、族群等這些因素,肯定都要被控制,在這些因素相同的情況下,再去比較我們想考察的那個(gè)變量。但是興許還有一些我們未知的C,我們無法主動(dòng)地挑出這個(gè)變量去控制。

最簡單的達(dá)到“all else equal”的場景,就是利用隨機(jī)性。我們隨機(jī)選出兩個(gè)實(shí)驗(yàn)組,所以理論上講,它們是一樣的,然后,在其中一個(gè)實(shí)驗(yàn)組中只改變我們要考察的變量,再去比較兩組各自的結(jié)果,就可以判斷這個(gè)變量對結(jié)果的影響了。

第二個(gè)概念叫“difference in differences”,在不同中的不同。什么意思?舉個(gè)例子,比如我們公司季度銷量的增加有多少歸功于季節(jié)因素,又有多少歸功于我們新請的形象代言人呢?

比如從春季到夏季,整個(gè)市場的銷量漲了50%,但我司的銷量漲了70%,而這期間我們只做了一件特別的事情,就是請了一個(gè)形象代言人,所以大概率那20%就是我司跟市場比起來做出的額外努力的成果。如果我們知道了請代言人花了多少錢,我們也知道了20%的銷量有多少利潤,這就很容易能比較出來請這個(gè)代言人到底劃不劃算。

盡信數(shù)據(jù)不如無數(shù)據(jù)

總之,有數(shù)據(jù)很好,但是我們要保有思辨的精神和習(xí)慣。

有時(shí)科學(xué)研究的論文里會(huì)誠實(shí)地寫道,這個(gè)實(shí)驗(yàn)只證明了相關(guān)性,因果性還未知。但是一到新聞報(bào)道和尋常人的理解中,這個(gè)相關(guān)性瞬間就變成了因果性,尤其當(dāng)這個(gè)因果關(guān)系特別符合我們的直覺、思維定式、思維惰性或先入為主的觀點(diǎn)時(shí)。

再回到開頭的例子,有人拿著我10年前的照片跟我說:“阿龐,你看照片上的你那么瘦,因?yàn)槭?,所以顯得年輕10歲,所以你快減肥吧。”

因?yàn)槭蒿@得年輕,所以人就應(yīng)該減肥,這也很符合我們的思維定式。但這張照片本身就是一張10年前的照片,“10年前”其實(shí)是那個(gè)C:因?yàn)?0年前我代謝快,所以我瘦;因?yàn)槭?0年前,所以我當(dāng)然看上去就年輕10歲。因此,瘦和年輕10歲本身呈相關(guān)性,并非因果性?,F(xiàn)在你讓我減肥,本來脂肪讓我的臉顯得很飽滿,我這一瘦,壞事了,臉?biāo)?,皮松了,看著更老了?/p>

當(dāng)相關(guān)性和因果性被混淆時(shí),我們的行為會(huì)被誤導(dǎo),所以我們說“盡信數(shù)據(jù)不如無數(shù)據(jù)”。相關(guān)性和因果性有時(shí)的確很難被區(qū)分,但它們的差別卻十分重要。最后再重復(fù)一次,相關(guān)性可以幫助我們推測,但只有建立了因果性,我們才能通過改變因去影響果。

思考與應(yīng)用

·有人觀察到,性解放程度越低的國家生育率越高,所以就認(rèn)為,如果某國想要提升生育率,就應(yīng)該反對性解放,比如將性與生育綁定。這個(gè)觀點(diǎn)一定站得住腳嗎?性壓抑和生育率之間一定是因果關(guān)系嗎?

·有研究表示“每天跑步5分鐘能讓人更長壽”,有什么合理的因C會(huì)同時(shí)給一個(gè)人帶來“做到每天跑步5分鐘”和“更長壽”的結(jié)果呢?

·有這樣一個(gè)數(shù)據(jù),“結(jié)婚時(shí)買的鉆石越大,離婚率越高”,這兩者有因果關(guān)系嗎?

主站蜘蛛池模板: 两当县| 昌江| 阿克苏市| 虞城县| 额济纳旗| 甘泉县| 台北市| 班戈县| 新建县| 舒城县| 徐水县| 祁东县| 长子县| 苏州市| 桐梓县| 阜阳市| 揭东县| 崇州市| 祁门县| 杭锦旗| 大荔县| 松滋市| 永泰县| 安宁市| 永康市| 天门市| 阿拉善右旗| 柘城县| 佛学| 石台县| 平果县| 台东县| 青冈县| 抚宁县| 抚远县| 揭东县| 达孜县| 香港 | 正宁县| 惠东县| 宁陕县|