- 因果推斷:基于圖模型分析
- 羅銳編著
- 2727字
- 2023-08-28 19:18:55
1.3 變量之間的關系
從人們對自然規律的認識體系來看,相關性和因果關系在人們對自然規律的認識體系中屬于不同的認識層次。如圖1.1所示,人們對自然界中不同變量之間關系的認識大致可以分為三個層面。

圖1.1 人們對變量之間關系的認識層次
人們對自然界中不同變量之間關系的最低認識層次是相關性關系。比如前述“吃冰激凌的人數多”和“溺亡人數多”具有相關性,火災事故中“消防車數量多”和“傷亡人數多”具有相關性。這些變量之間的相關性反映了變量變化的同步性,比如,在觀察到“吃冰激凌的人數多”的同時觀察到“溺亡人數多”;在火災事故中,經常在觀察到“消防車數量多”的同時觀察到火災“傷亡人數多”。變量之間的相關性結論可以僅僅通過觀察性數據得出。基于變量之間的相關性關系,我們可以根據一個變量的情況對另一個變量的情況做出大致的估計,比如,根據火災事故中“消防車數量多”,大致估計在該事故中“傷亡人數多”,而如果“消防車數量少”則估計“傷亡人數少”;根據“公雞叫”大致判斷“快要天明了”。但是,根據變量之間的相關性做估計很可能存在風險,比如,假設我們故意驅趕公雞讓它叫,這時候如果再根據“公雞叫”來估計“快要天明了”,就會發生錯誤。
在相關性關系之上是因果關系。比如,冬天衣服穿少了著涼后就會感冒,“著涼”和“感冒”之間就具有因果關系,我們不但可以觀察到“著涼”和“感冒”(大致)同步發生,而且如果我們故意讓一個人衣服穿少,他就必然會“感冒”(這里考慮總體情況,忽略極少部分特例)。而相關性則不同,在火災事故中“消防車數量多”和“傷亡人數多”具有相關性,但如果我們特意在火災事故救援中增加“消防車數量”,并不會必然導致這次火災事故中“傷亡人數”增加。因此,我們可以說,變量之間具有因果關系則必然具有相關性,但變量之間具有相關性并不一定具有因果關系。在僅有觀察性數據的條件下,我們不一定能夠得到變量之間的因果關系,那么,在什么條件下、采取什么樣的方法可以基于觀察性數據得到變量之間的因果關系呢?這將是本書的主要內容,也是大數據時代“數據驅動”所關注的重要問題。基于變量之間的因果關系,我們可以根據一個變量的情況對另一個變量的情況做出估計,避免根據相關性進行估計時可能發生的錯誤。比如,“長期吃折耳根”,長期攝入馬兜鈴酸,就必然會導致“肝臟損傷”;冬天衣服穿少了,“著涼”就必然會“感冒”。這里,無論是自然發生的衣服穿少了“著涼”,還是故意安排讓人衣服穿少了“著涼”,都必然會導致發生“感冒”。如果我們根據“著涼”估計將會出現“感冒”,就不會出現錯誤。因此,變量之間的因果關系較之于相關性關系,具有更多的信息,代表著人們對客觀世界更為深刻的認識,能夠讓我們做出更為準確的推斷和預測。
人們對變量之間關系最深入的認識是以微分方程(普通方程可視為微分方程的特例)關系形式表達的變量之間的關系。比如,在慣性系中,物體運動滿足牛頓第一定律

其中是物體所受的外力,
是物體的速度,m是物體質量,t是時間。式(1.6)表達了慣性系中物體所受外力、物體質量和物體的加速度這三個變量之間的關系。對于已知質量的物體,只要給定微分方程中物體所受的外力,即可精確求得該物體的加速度。根據這個微分方程,我們可以通過控制對物體施加的外力,控制該物體的加速度。顯然,物體所受的外力和其加速度之間存在因果關系,物體所受外力是“因”,物體的加速度是“果”。如果對物體施加外力,則必然產生加速度。但在因果關系信息的基礎上,變量之間的微分方程關系還體現了變量之間較之因果關系更為精確和深入的關系。基于式(1.6),我們可以根據對物體施加外力的數值,精確推斷出產生的加速度的數值。
在人們對客觀世界的認識體系中,變量之間的相關性關系分析最簡單,只需要對觀察性數據做統計分析即可得到,因此,基于相關性的統計分析在機器學習領域得到了廣泛的應用,近年來也取得了巨大的成功。但是,由于相關性關系分析對變量之間關系規律的反映最膚淺,也帶來兩個方面的問題。
1)基于相關性統計分析的機器學習泛化能力不足。馬克斯·普朗克智能系統中心主任Bernhard Sch?lkopf發表文章指出,“盡管近期機器學習取得了很大成功,但如果我們將機器學習能夠完成的事與動物能做的事進行對比,就會發現機器學習對于動物擅長的一些技能表現并不好。這包括將解決問題的能力遷移至新問題,以及進行任意形式的泛化,這里不是指從一個數據點到另一個數據點(數據點來自同一分布)的泛化,而是從一個問題泛化至下一個問題”,并且他認為,“關注對干預進行建模和推理的因果關系可以極大地幫助理解和解決這些問題,從而將機器學習領域推向新高度”。
2)由于變量之間的相關關系可以完全被第三個變量所“扭曲”,因此基于相關性對變量進行預測,很可能得出類似辛普森悖論的錯誤結論。從數學的角度來看,辛普森悖論體現的就是:變量X和變量Y存在邊緣正相關,但在給定另外的第三個變量Z后,在變量Z的每一個水平上,變量X和變量Y卻存在條件負相關。辛普森悖論的案例說明,我們觀察到的數據并非事物的全貌,變量之間的相關性關系并不等于變量之間的因果關系,簡單地應用統計相關性分析相關結果得出分析結論,很可能得到一個錯誤的結果。鑒于辛普森悖論的潛在可能,簡單的相關性分析不能代替因果推斷研究。因此,在分析中,我們不能止步于相關性分析,而是需要采用正確的分析方法,進一步研究整個數據生成的過程,分析其中各個變量之間相互作用的機制,以獲得變量之間的因果關系模型。
變量之間的微分方程關系精確、深入地刻畫了變量之間的相互作用機制及量化關系,根據微分方程,可以對變量進行準確、量化的預測。但是變量之間的微分方程關系很難從觀察性數據中獲得,需要人們設計、執行大量的試驗,才能從中歸納、演繹出變量之間的微分方程關系,獲取的難度比相關性關系和因果關系更高。
在人們對客觀世界的認識體系中,變量之間的因果關系是介于相關性關系和微分方程關系之間的一個層次。因果關系對客觀世界變量之間關系反映的準確性介于相關性關系和微分方程關系之間,獲取因果關系的難度也介于相關性關系和微分方程關系之間。通常,我們通過試驗性數據獲取變量之間的因果關系,比如大家常用的隨機對照試驗(Randomized Controlled Trail, RCT),但在一定條件下,我們也可以基于觀察性數據得出變量之間的因果關系。一旦通過因果關系理解了數據中各個變量之間相互作用的機制,我們就能在觀察性數據的基礎上,結合變量之間的相互作用機制,通過因果推斷,正確解決類似于前述辛普森悖論的決策問題。在機器學習方面,“關注對干預進行建模和推理的因果關系可以極大地幫助理解和解決這些問題(泛化問題),從而將機器學習領域推向新高度”。因此,對變量之間因果關系的研究將是本書要介紹的主要內容。