- 因果推斷:基于圖模型分析
- 羅銳編著
- 7字
- 2023-08-28 19:18:57
2.2 概率及其計算
2.2.1 概率與條件概率
概率的定義如下:對于一個隨機試驗,全體基本事件有n個,若事件A包含m個基本事件,則事件A的概率為

在調查學生身高與體重關系的試驗中,可以將學生的身高視為一個變量,我們用X表示,X=175cm的概率可以表示為P(X=175cm),表示在所有學生中隨機選出一個學生,其身高等于175cm的概率。更一般的情況是,變量X=x的概率表示為P(X=x),為簡化書寫,根據上下文,這個表達式通常可以縮寫為P(x)。我們也可以描述多個變量同時取值的概率,比如,X=x同時Y=y的概率可以表達為P(X=x,Y=y)或者縮寫為P(x,y)。
事件B已經發生的情況下事件A發生的概率,稱為給定B條件下A的條件概率。給定Y=y條件下X=x的條件概率,表示為P(X=x|Y=y)。和無條件概率類似,這個表達式也可以縮寫為P(x|y)。通常,X=x在給定Y=y條件下的條件概率,與無條件的X=x的概率相比有較大的變化。一個直觀的例子是,一般人患糖尿病的概率比較低,但是,在直系親屬患糖尿病的條件下,則患糖尿病的概率將大大增加。
在給定數據集中根據頻率估算條件概率時,可以將條件視為一個或多個變量的取值,再根據一個或多個變量的取值情況對數據集進行過濾、計算。我們以某地企業年產值的統計為例,來具體說明如何在數據集的基礎上通過過濾實現條件概率的計算。
例2.1 我們統計某地工業企業的年產值分布情況,得到如表2.1所示的數據集。
表2.1 企業年產值分布統計

在表2.1中,當地總計有375家企業,我們估計其中年產值低于4000萬元的企業的概率,則有

其中“年產值<4000”表示“年產值小于4000萬元”,以下表示與此類似。現在我們再來估計在年產值大于2000萬元的條件下年產值小于4000萬元的企業的概率。為此,我們簡單地對表2.1中的數據以年產值大于2000萬元為條件進行過濾,相應得到新的數據集,如表2.2所示。
表2.2 年產值大于2000萬元的企業分布統計

在表2.2的新數據集中共有123家企業,相應地,我們可以估計得到在年產值大于2000萬元的條件下年產值小于4000萬元的企業的概率:

同時,從表2.1可以計算得到:

令P(A)=P(年產值<4000),P(B)=P(年產值>2000),P(A,B)=P(年產值<4000,年產值>2000),P(A|B)=P(年產值<4000|年產值>2000),有

顯然有

式(2.2)即為概率的乘法公式的變形,后續將進行介紹。根據式(2.2),我們可以得到更一般的根據樣本數據表計算條件概率(假設樣本量足夠大,頻率等價于概率)的方法——過濾法。以例2.1中的數據為例,首先根據表2.1計算各個年產值段企業分布的概率,如表2.3所示。
表2.3 企業年產值分布概率

現在需要計算概率P(年產值<4000|年產值>2000),先將滿足年產值大于2000萬元條件的企業數據篩選出來,將其余不滿足條件的數據刪除,相應地得到概率子表,如表2.4所示。
表2.4 年產值大于2000萬元的企業分布概率

然后在表2.4中將年產值小于4000萬元的企業篩選出來,其概率P′(年產值<4000,年產值>2000)=15.2%+9.6%=24.8%。同時,考慮到表2.4中所有概率和應該為1,故應對P′(年產值<4000,年產值>2000)除以32.8%做歸一化處理。所以,最終

一般地,通過過濾法計算條件概率P(A|B)的步驟是:
1)在總的樣本數據集中計算各個樣本類別的概率,得到總數據表;
2)根據條件概率式中的條件B,將總數據表中不符合條件B的數據樣本類別刪除,得到樣本子表;
3)在樣本子表中將符合條件A的樣本類別篩選出來,將各個符合條件A的樣本類別在樣本子表中的概率加和,得到初步的條件概率P′(A|B);
4)樣本子表中所有樣本類別在總數據表中的概率的總和假設為θ,將初步的條件概率P′(A|B)除以θ,即為條件概率P(A|B)。
條件概率在因果推斷分析中非常重要,根據樣本數據集進行干預分析、反事實分析或因果關系概率的計算,都需要進行條件概率的計算,過濾法是上述計算工作的基礎,在后續內容中我們將多次應用過濾法進行計算。