官术网_书友最值得收藏!

1.1 辛普森悖論

辛普森悖論以第一位發表該悖論的統計學家E. H.辛普森(生于1922年)的名字命名。這個悖論是指存在著這樣的一種數據(分布),其在總體上存在一種統計相關關系,但在各個子總體上卻存在與之相反的統計相關關系。

例1.1 大學錄取性別歧視問題

根據美國一所大學的兩個學院(商學院和法學院)的新學期招生數據,人們懷疑在招生中有性別歧視。兩個學院匯總的招生統計數據如表1.1所示。

表1.1 兩個學院匯總的招生統計數據

從表1.1可見,女生的錄取率為56.5%,明顯低于男生的錄取率68.8%,似乎確實存在性別歧視,但真的存在性別歧視嗎?讓我們再來看兩個學院各自的招生統計數據。

從表1.2和表1.3可見,在兩個學院各自的細化招生統計數據中,女生的錄取率都高于男生的錄取率。這與兩個學院匯總統計數據中的結論正好相反。對于這樣的結論,大家感覺難以置信,甚至很荒謬,因此,人們稱之為悖論。通過深入分析可以看到,出現這樣的情況主要有兩個原因:

● 兩個學院的錄取率之間存在很大差距,法學院的錄取率比商學院的錄取率低得多。同時,不同性別的申請者數量在不同學院的分布相反,女性申請者大多分布在錄取率低的法學院,而男性申請者大多分布在錄取率高的商學院。在拒收率高的法學院,雖然女生的拒收率低于男生的拒收率,但由于申請的女生遠遠多于男生,因此拒收的女生數量(101人)仍然遠遠多于拒收的男生數量(45人),差距為56人。而在錄取率高的商學院,雖然男生申請數量更多,但由于總體錄取率高,導致男生被拒數量(50人)和女生被拒數量(9人)之間的差距(41)與法學院的被拒數量差距相比,并不是很大。因此最后的匯總結果中,申請數量中男生多于女生,而拒收數量中男生少于女生,男生總的錄取率反而高于女生總的錄取率。

● 可能存在其他潛在因素的影響。性別并非影響錄取率的唯一因素,甚至可能對錄取率毫無影響。或許是其他因素的作用,如入學成績、教育背景等造成了錄取率的差異,讓人誤以為是性別差異造成的。

表1.2 法學院招生統計數據

表1.3 商學院招生統計數據

這個例子告訴我們,簡單地將分組數據加起來進行相關分析,有時候并不能反映真實情況,甚至可能會得出錯誤的結論,需要對數據進行深入的分析,以去偽存真。將數據按照一些重要變量進行分組,再進行相關分析,有時更能反映世界的真實情況。我們再來看一個類似的例子。

例1.2 新藥效果的評估

下面觀察患者服用一種新藥的效果,相關統計數據如表1.4所示。

表1.4 按性別分組的新藥效果統計數據

在表1.4中,第一行是男性患者的數據,第二行是女性患者的數據,第三行是不區分性別的所有患者的數據。根據第一行數據,在男性患者中,服用藥物的患者比未服用藥物的患者有更高的康復率(93%>87%)。根據第二行數據,在女性患者中,同樣服用藥物的患者比未服用藥物的患者有更高的康復率(73%>69%)。但是,根據第三行數據,若以所有患者為統計對象,服用藥物的患者卻比未服用藥物的患者的康復率更低(78%<83%)。也就是說,新藥分別對男性患者和女性患者康復都有幫助,但對包含男性和女性的所有患者,結論正好相反。這是為什么?

首先我們知道,無論是服用藥物的患者還是未服用藥物的患者,總的康復率都等于男性康復率和女性康復率的加權平均。先看服用藥物的患者,由于女性患者的比例遠高于男性患者的比例,因此加權平均的康復率更接近于女性患者的康復率73%,為78%;對于未服用藥物的患者,由于男性患者的比例遠高于女性患者的比例,因此加權平均的康復率更接近于男性患者的康復率87%,為83%。只要服用藥物的女性患者的康復率低于未服用藥物的男性患者的康復率,就存在這樣的可能性,雖然在分組統計數據中,無論男性還是女性,服用藥物患者的康復率都高于未服用藥物患者的康復率,但加權平均后,服用藥物患者總的康復率低于未服用藥物患者總的康復率。這是因為,只要我們讓服用藥物的患者中女性患者的比例足夠大,就可以讓服用藥物患者的康復率無限接近于服用藥物的女性患者的康復率;而只要我們讓未服用藥物的患者中男性患者的比例足夠大,就可以讓未服用藥物患者的康復率無限接近于未服用藥物的男性患者的康復率。由于此時服用藥物的女性患者的康復率低于未服用藥物的男性患者的康復率,因此,最終出現了服用藥物患者總的康復率低于未服用藥物患者總的康復率的現象。表1.4中的統計數據正好是這樣的情況。出現了“新藥分別對男性患者和女性患者康復都有幫助,但對包含男性和女性的所有患者,結論正好相反”的現象。

因此,在本例中要正確評估服用藥物對康復率的影響,我們需要通過分組,在同一性別的條件下對目標對象進行比較,以避免由于總體樣本中不同性別患者的比例不同,對分析結果的“扭曲”。在本例中,這個問題的正確答案無法直接從總體(未分組)數據的相關分析中得到。我們對樣本數據進行分組,相應的分組數據較之未分組的數據,帶有更多的細節信息,具有更大的信息量,因此需要采用分組數據進行研究。

但是,對樣本數據進行分組就一定能避免樣本分布比例對分析結果的“扭曲”嗎?還是前面服用藥物和康復的例子,還是同樣的患者數據對象。我們對患者數據的統計不是按照性別分組,而是按照試驗結束時患者的血壓進行分組。重新整理后,我們將得到如表1.5所示的數據,表1.5中描述的患者對象數據與表1.4中的原始樣本數據完全相同,不同之處在于兩個表分組的變量不同。

表1.5 按血壓分組的新藥效果統計數據

根據這個數據,無論是分組數據還是總體數據,服用藥物患者的康復率都要低于未服用藥物患者的康復率。這個數據能夠說明服用藥物確實無助于患者的康復嗎?這個結論顯然是錯誤的,那么錯誤的原因在哪里呢?

事實上,分組數據也未必總能提供正確的信息,能否提供更為準確的信息來避免樣本分布比例對分析結果的“扭曲”,還有賴于正確的分組方法,而正確的分組方法則取決于我們所看到的數據結果的生成機制,也就是數據中變量之間引起與被引起的關系。假設有如下兩個方面的數據生成機制:

● 患者性別影響康復:患者的雌激素水平影響患者的康復,雌激素水平越高,患者的康復率越低,因此,無論是否服用藥物,女性的康復率都要低于男性的康復率,這從表1.4的數據中可以看到。

● 服用藥物影響康復:服用藥物對患者康復的影響,是通過患者血壓起作用的,服用藥物導致患者血壓降低,而患者血壓降低導致患者康復率提高。

在了解了上述數據的生成機制后,我們對這個新藥效果評價的分析思路將豁然開朗。由于患者性別對患者的康復有影響,因此,如表1.4所示,以性別作為分組變量將能夠避免樣本分布比例對分析結果的“扭曲”,從而得出正確的分析結論;而如表1.5所示,若以患者的血壓作為分組變量,由于服用藥物促進患者康復是通過降低患者的血壓來實現的,試驗結束后的患者血壓情況和康復情況應該是一致的,按照試驗結束后的血壓來分組并不能提供更多的信息,因此無法避免樣本分布比例對分析結果的“扭曲”。

從服用新藥效果評估這個例子中我們看到,在數據分析中,具體應該以什么變量為依據來進行分組,才能提供更多的信息、避免分析結果偏差、得出正確的結論呢?這需要根據樣本數據的生成機制,更準確地說是樣本數據中變量之間引起與被引起的關系,來選取相應的變量作為分組變量,具體的變量選用準則將在第4章的調整表達式部分做進一步介紹。

從辛普森悖論現象可以看到,簡單應用統計相關分析很可能會導致我們在數據分析中得出錯誤的結論。類似地,在機器學習應用中,不深入分析、應用數據中各個變量之間的相互作用機制,僅僅簡單利用變量之間的統計相關分析結果,同樣可能產生錯誤。下面是一個推薦系統的例子。

例1.3 推薦算法效果評估

某網站原有推薦算法A,為進一步提高網站的點擊通過率(Click Through Rate, CTR),擬新上線推薦算法B。為評估新算法B的效果,以便決定是否正式用算法B代替算法A,公司從日志文件中提取數據對算法A和算法B的推薦效果進行了統計,相關數據如表1.6所示。

表1.6 新、舊推薦算法CTR統計數據

這個數據就能夠說明推薦算法B(新算法)的效果確實優于推薦算法A(舊算法)的效果嗎?

細心的算法研究人員注意到用戶活躍度對其網站點擊行為存在影響,網站訪客中活躍用戶和非活躍用戶在行為特點上存在很大的不同,因此,對日志數據按照用戶的活躍情況進行分組,相關數據如表1.7所示。

由表1.7可見,無論是活躍用戶還是非活躍用戶,舊推薦算法A的CTR都要高于新推薦算法B的CTR,雖然在包含所有用戶的統計數據上新推薦算法B的CTR要高于舊推薦算法A的CTR,但我們并不能簡單地根據表1.6就得出新的推薦算法B具有更好推薦效果的結論。

表1.7 按照用戶活躍情況分組的新、舊推薦算法CTR統計數據

主站蜘蛛池模板: 通城县| 灵台县| 勃利县| 旺苍县| 富宁县| 松潘县| 东源县| 公主岭市| 绥棱县| 安庆市| 广宁县| 清涧县| 贵南县| 忻城县| 鄢陵县| 永泰县| 兰坪| 洛阳市| 长垣县| 长泰县| 卢氏县| 和顺县| 颍上县| 玉林市| 绥芬河市| 宕昌县| 县级市| 洪雅县| 蓝山县| 隆林| 邢台市| 漳浦县| 射阳县| 徐闻县| 曲阜市| 磐安县| 临潭县| 嘉黎县| 安仁县| 石渠县| 南皮县|