第三章 概率基礎
第一節 概率
前面談到社會調查中最常用的方法是抽樣調查。抽樣調查是通過對抽樣(局部)的研究,達到對全體的判斷或推論,也就是以小看大的研究方法,它屬于歸納法的范疇,歸納法與演繹法所不同的,在于歸納法的結論大于前提,因此結論與前提間不是包含關系。歸納法的結論不能有百分之百的可靠性。它除了推理所預言的結果外,還可能存在其他結果。而研究各種可能出現的結果,及其所對應出現可能性的大小,正是概率論所要研究的問題。可見,對于通過抽樣調查,研究局部推論到總體,必須通過概率論作為工具或媒介。這也是學習統計推論必須首先學習概率論的緣故。通過概率論,可以知道在一定條件下,總體的各種抽樣結果所具有的概率特性。而統計推論則是研究在發生了某種抽樣結果的情況下,判斷它來自何種總體更為合理。因此可以說,統計推論是概率論研究的逆問題。為了學習概率論,首先要了解概率論的研究對象。簡單說來,概率論的研究對象是隨機現象。
一、什么是隨機現象
客觀現象可以分為確定性現象和非確定性現象。在很長一段歷史時期內,由于生產水平的限制,人們只限于研究確定性現象。例如,在一個標準大氣壓的情況下,溫度上升到100℃,水必然沸騰。同樣,在社會經濟領域內,一個國家每年要支付多少薪金也是確定的。但除了確定性現象外,在自然、經濟、社會領域內還存在另一類現象。這類現象的特點是在一定條件下,它無法像“水必然沸騰”那樣預言其必然發生。例如,我們無法預言某天將有多少人死亡;多少嬰兒將誕生;多少人因車禍而身亡;多少人結婚;多少人離婚;多少人從北京到上海;多少人晚間收看哪些電視節目等等。所有這些現象都有一個共同的特點,那就是在一定條件下(例如某天)事物的出現只具有可能性但不具有必然性。所謂可能而又不必然,則意味著在一定條件下出現的結果不止一種,因此對其中任一種結果的出現,都只能說具有一定的可能性、偶然性或稱隨機性。而且這種非確定性的存在,并不取決于對事物事先了解的程度。例如一個競技再好的運動員,也無法預言在比賽中是否一定會取勝。
隨機現象具有非確定性、隨機性,但絕不是說隨機現象是雜亂無章、無規律可循或無法研究的。實際上,隨機現象是存在著規律性的。人們通過大量的實踐與觀察,是能認識其統計規律性的。例如人口學中的性別比問題,說明了從局部的、瞬時的、小范圍來看,嬰兒的性別比可能波動性很大,但長期或大面積的統計,就會發現男、女性別比穩定地保持在,這正是概率論所要研究的隨機現象的統計規律性。
從命題來分,確定性現象的研究屬于必然命題,它表示為:
若……則……
而非確定性現象的研究屬于隨機命題。它表示為:
若……可能……
在社會學的研究中,常見的多為隨機命題,必然命題是十分少見的。但從另一方面,也應該看到確定與非確定都是相對而言的,其間并無不可逾越的鴻溝。實際上,隨著問題研究的深入和精確程度的提高,原先認為是確定性的現象也會成為非確定性的現象。比如以國家的工資總額來說,似乎是確定的。但如果要求數字的精確度進一步提高,那么每月隨著職工人員的增加,退休、死亡、工傷、離職以及工資的變動,其工資總額也是不斷變化的。因此,可以說非確定性是普遍的,只是程度不同而已。同時,在社會生活中,由于任何一種社會現象、社會行為,其產生的原因都是十分復雜的,人們往往無法準確地掌握其全部原因,這也正是為什么社會學命題多為隨機命題的緣故。當人們對事物發生的原因知之甚少時,事物的發生總是具有某種非確定性或偶然性的。但在看到社會現象具有偶然性一面時,還應該注意到,對于大量現象的研究,由于平衡與排除了單個孤立事件所具有的偶然性,從而呈現出了內部所隱蔽著的統計規律性,正如恩格斯所指出:“在表面上是偶然性在起作用的地方,這種偶然性始終是受內部的隱蔽著的規律支配的,而問題只是在于發現這些規律。”[4]偶然事件的概率(即發生可能性的大小)就是偶然事件隱蔽著的規律。
二、概率的概念
前面談到了隨機現象具有在一定條件下,呈現多種可能結果的特性。而到底出現哪種結果,卻又是無法預言的。因此,隨機現象的結果以及這些結果的集合就稱作隨機事件,或簡稱事件。
例如:
●某人在運動會上將得金牌。
●某人將活到80歲以上。
●明年報考醫學院的學生將超過一萬人。
●明天將下雨。
以上列舉的事件都并非一定會發生的,而只是可能發生也可能不發生的非確定性事件,稱隨機事件。而概率則是這些隨機事件發生可能性大小的數量表示。實際上,人們在日常生活中常用“比較級”粗略地來表示隨機事件發生可能性的大小。
例如:
●某生明年不可能考上大學。
●某生明年可能會考上大學。
●某生明年很可能考上大學。
●某生明年一定會考上大學。
句中“不可能”“可能”“很可能”“一定”都是對可能性大小的粗略的估計。而概率就其表達的實質來說,和這些“比較級”是一樣的,只是在數量上對可能性大小表達得更為精確而已。
數學上一般約定用英文字母P表示概率,并用括號說明P是哪一個事件的概率。例如:
P(A)——表示事件A所具有的概率
P(B)——表示事件B所具有的概率
進一步,為了使可能性的大小能進行比較,概率的度量必須標準化。也就是確定概率的最大值是什么和最小值是什么。為此,我們把不可能發生的事件稱作不可能事件(記作),發生的概率P(
)定作0:

把一定發生的事件(S)稱作必然事件,發生的概率P(S)定作1:

而一般隨機事件E,由于它發生的可能性介于“必然”與“不可能”之間,因此它發生的概率P(E)為:

可見,如果我們按可能性的大小順序排列事件的話,則有:

那么,對應事件的概率為:

也就是一般說來,任何隨機事件E發生的概率介于0、1之間,是個非負數:

概率的最大值是1,當P(E)=1時,事件E是必然發生的。概率最小值是0,當P(E)=0時,事件E是不可能發生的。而當概率界于0至1之間,事件發生的可能性隨P值而變化,例如,當P(E)=0.1時,表示事件E雖然有可能發生,但發生的可能性不大;當P(E)=0.9時,事件E雖然并非必然發生,但發生的可能性就很大了;但當P(E)=0.5時,事件E發生與否,各占0.5,這種情況下,決策者對做進一步的取舍就比較困難了。
下面舉例分析哪些是必然事件,哪些是不可能事件或隨機事件:
[例]1.某企業有青工100名,其中20名為已婚者。今任抽25名,那么,其中含有5名為已婚者的事件則為隨機事件。因為任抽25名可能恰有5名已婚,也可能已婚人數不是5名。
[例]2.接例1:若任抽25名,那么,其中至少有5名為未婚者的事件則為必然事件。(想想看為什么?)
[例]3.接例1:若任抽25名,其中有21名為已婚者的事件則為不可能事件。(想想看為什么?)
三、概率的計算方法
概率是反映隨機事件內在的統計規律性的。所謂統計規律性,是指在一定條件下,就其個別一次的結果來說都具有偶然性,但大量重復的試驗或觀察,則其結果無不呈現必然的規律性,這種規律性,稱作統計規律性。統計規律性是事物本身所固有的,是事物的客觀屬性,而概率P正是這種事物客觀屬性的數量表現。那么,如何求得這種概率屬性呢?最直觀、最簡單的想法就是和“頻率”聯系在一起的。人們憑借生活經驗的直觀感覺可以知道,若事件E出現的可能性愈大,則實際觀測結果的頻率也愈大,反之亦然。而概率是事件發生可能性大小的數量表示,因此,可以把事件E的概率P(E)定義為試驗或觀察次數N趨于無窮時相應頻率n/N的穩定值。

其中N為在相同條件下試驗或觀察總次數,n為隨機事件E出現的n次。
這里強調實驗次數N要足夠大,甚至理論上N應趨于無窮的原因是,如果重復試驗或觀察的次數N不太大時,其頻率f(E)取值,不僅可能不相同,而且可以相互差別較大,這是隨機事件偶然性的表現;但當試驗或觀察次數N足夠大時,偶然因素被排除,頻率f(E)將穩定于某一常數p,從而體現了隨機事件統計規律性的一面。
為了說明當N→∞時頻率f(E)的穩定值是反映了隨機事件自身固有的性質和規律。下面列舉統計學家蒲豐和皮爾遜所作經典的大量投擲硬幣的試驗結果(表3-1),可以看出,當N很大時,f(E)十分穩定地趨近于0.5。
表 3-1

在實際問題中,當概率不易求出時,往往就取當N充分大的頻率作為概率的近似值。例如當我們要了解全國人口的出生率、死亡率、初婚年齡、離婚率等等,如果用抽樣調查的結果來代替普查,那實際就是用頻率代替了概率。但應該看到,由于頻率是個試驗值,它是隨著試驗或觀察而變化的,因此具有隨機性。它只能近似地反映事件出現可能性的大小。而概率是個理論值,它由事件的本質所決定,其值是唯一的,能精確地反映事件出現可能性的大小。所以,從理論上講,概率比頻率要“完美”,它是反映事件出現可能性大小的唯一精確數值;但在實際中經常碰到的卻是頻率而不是概率。但另一方面,雖然我們經常用頻率近似地代替概率,但并不能否定概率這個概念的作用。有了概率,它可以把隨機事件與一個精確反映事件出現可能性大小的數量緊密地聯系起來,這就是概率論所要研究的內容。