官术网_书友最值得收藏!

2.2 概率及其計算

2.2.1 概率與條件概率

概率的定義如下:對于一個隨機試驗,全體基本事件有n個,若事件A包含m個基本事件,則事件A的概率為

在調(diào)查學(xué)生身高與體重關(guān)系的試驗中,可以將學(xué)生的身高視為一個變量,我們用X表示,X=175cm的概率可以表示為P(X=175cm),表示在所有學(xué)生中隨機選出一個學(xué)生,其身高等于175cm的概率。更一般的情況是,變量X=x的概率表示為P(X=x),為簡化書寫,根據(jù)上下文,這個表達式通常可以縮寫為P(x)。我們也可以描述多個變量同時取值的概率,比如,X=x同時Y=y的概率可以表達為P(X=x,Y=y)或者縮寫為P(x,y)。

事件B已經(jīng)發(fā)生的情況下事件A發(fā)生的概率,稱為給定B條件下A的條件概率。給定Y=y條件下X=x的條件概率,表示為P(X=x|Y=y)。和無條件概率類似,這個表達式也可以縮寫為P(x|y)。通常,X=x在給定Y=y條件下的條件概率,與無條件的X=x的概率相比有較大的變化。一個直觀的例子是,一般人患糖尿病的概率比較低,但是,在直系親屬患糖尿病的條件下,則患糖尿病的概率將大大增加。

在給定數(shù)據(jù)集中根據(jù)頻率估算條件概率時,可以將條件視為一個或多個變量的取值,再根據(jù)一個或多個變量的取值情況對數(shù)據(jù)集進行過濾、計算。我們以某地企業(yè)年產(chǎn)值的統(tǒng)計為例,來具體說明如何在數(shù)據(jù)集的基礎(chǔ)上通過過濾實現(xiàn)條件概率的計算。

例2.1 我們統(tǒng)計某地工業(yè)企業(yè)的年產(chǎn)值分布情況,得到如表2.1所示的數(shù)據(jù)集。

表2.1 企業(yè)年產(chǎn)值分布統(tǒng)計

在表2.1中,當(dāng)?shù)乜傆嬘?75家企業(yè),我們估計其中年產(chǎn)值低于4000萬元的企業(yè)的概率,則有

其中“年產(chǎn)值<4000”表示“年產(chǎn)值小于4000萬元”,以下表示與此類似。現(xiàn)在我們再來估計在年產(chǎn)值大于2000萬元的條件下年產(chǎn)值小于4000萬元的企業(yè)的概率。為此,我們簡單地對表2.1中的數(shù)據(jù)以年產(chǎn)值大于2000萬元為條件進行過濾,相應(yīng)得到新的數(shù)據(jù)集,如表2.2所示。

表2.2 年產(chǎn)值大于2000萬元的企業(yè)分布統(tǒng)計

在表2.2的新數(shù)據(jù)集中共有123家企業(yè),相應(yīng)地,我們可以估計得到在年產(chǎn)值大于2000萬元的條件下年產(chǎn)值小于4000萬元的企業(yè)的概率:

同時,從表2.1可以計算得到:

P(A)=P(年產(chǎn)值<4000),P(B)=P(年產(chǎn)值>2000),P(A,B)=P(年產(chǎn)值<4000,年產(chǎn)值>2000),P(A|B)=P(年產(chǎn)值<4000|年產(chǎn)值>2000),有

顯然有

式(2.2)即為概率的乘法公式的變形,后續(xù)將進行介紹。根據(jù)式(2.2),我們可以得到更一般的根據(jù)樣本數(shù)據(jù)表計算條件概率(假設(shè)樣本量足夠大,頻率等價于概率)的方法——過濾法。以例2.1中的數(shù)據(jù)為例,首先根據(jù)表2.1計算各個年產(chǎn)值段企業(yè)分布的概率,如表2.3所示。

表2.3 企業(yè)年產(chǎn)值分布概率

現(xiàn)在需要計算概率P(年產(chǎn)值<4000|年產(chǎn)值>2000),先將滿足年產(chǎn)值大于2000萬元條件的企業(yè)數(shù)據(jù)篩選出來,將其余不滿足條件的數(shù)據(jù)刪除,相應(yīng)地得到概率子表,如表2.4所示。

表2.4 年產(chǎn)值大于2000萬元的企業(yè)分布概率

然后在表2.4中將年產(chǎn)值小于4000萬元的企業(yè)篩選出來,其概率P′(年產(chǎn)值<4000,年產(chǎn)值>2000)=15.2%+9.6%=24.8%。同時,考慮到表2.4中所有概率和應(yīng)該為1,故應(yīng)對P′(年產(chǎn)值<4000,年產(chǎn)值>2000)除以32.8%做歸一化處理。所以,最終

一般地,通過過濾法計算條件概率P(A|B)的步驟是:

1)在總的樣本數(shù)據(jù)集中計算各個樣本類別的概率,得到總數(shù)據(jù)表;

2)根據(jù)條件概率式中的條件B,將總數(shù)據(jù)表中不符合條件B的數(shù)據(jù)樣本類別刪除,得到樣本子表;

3)在樣本子表中將符合條件A的樣本類別篩選出來,將各個符合條件A的樣本類別在樣本子表中的概率加和,得到初步的條件概率P′(A|B);

4)樣本子表中所有樣本類別在總數(shù)據(jù)表中的概率的總和假設(shè)為θ,將初步的條件概率P′(A|B)除以θ,即為條件概率P(A|B)。

條件概率在因果推斷分析中非常重要,根據(jù)樣本數(shù)據(jù)集進行干預(yù)分析、反事實分析或因果關(guān)系概率的計算,都需要進行條件概率的計算,過濾法是上述計算工作的基礎(chǔ),在后續(xù)內(nèi)容中我們將多次應(yīng)用過濾法進行計算。

主站蜘蛛池模板: 屏山县| 兴义市| 寻乌县| 正镶白旗| 伊川县| 大邑县| 钟祥市| 海门市| 乌鲁木齐市| 玉环县| 开鲁县| 麦盖提县| 固原市| 宣城市| 西青区| 宜宾市| 缙云县| 隆回县| 秀山| 瑞昌市| 安康市| 安庆市| 湘乡市| 石渠县| 鹤岗市| 晴隆县| 阿瓦提县| 新宁县| 易门县| 牡丹江市| 澄城县| 陈巴尔虎旗| 弥勒县| 客服| 营口市| 全椒县| 温州市| 磐安县| 海林市| 泽库县| 白朗县|