書(shū)名: 從擲骰子到阿爾法狗:趣談概率作者名: 張?zhí)烊?/a>本章字?jǐn)?shù): 3233字更新時(shí)間: 2019-10-16 10:18:39
2.似是而非的答案:概率論悖論
如今,“概率”一詞在我們的生活中隨處可見(jiàn),被人們使用得越來(lái)越廣泛和頻繁。因?yàn)檫@是一個(gè)越來(lái)越多變的世界:一切都在變化,一切都難以確定。我們的世界可以說(shuō)是由變量構(gòu)成的,其中包括很多決定性變量。比如新聞?wù)f:“北京時(shí)間2016年11月3日20時(shí)43分,長(zhǎng)征五號(hào)在海南文昌成功發(fā)射”,這里的時(shí)間、地點(diǎn)都是確定的決定性變量。然而,我們的生活中也有許多難以確定的隨機(jī)變量,比如明天霧霾的程度,或某公司的股票值,等等,都是不確定的隨機(jī)變量。隨機(jī)變量不是用固定的數(shù)值表達(dá),而是用某個(gè)數(shù)值出現(xiàn)的概率來(lái)描述。正因?yàn)樘幪幎加须S機(jī)變量,所以處處都聽(tīng)見(jiàn)“概率”一詞。你打開(kāi)電視聽(tīng)天氣預(yù)報(bào),看看今天會(huì)不會(huì)下雨,氣象預(yù)報(bào)員告訴你說(shuō):今天早上8點(diǎn)鐘的“降水概率”是90%;你到手機(jī)上查詢股市中的某種股票,你得到的信息可能是這種股票3個(gè)月之后翻倍的概率是67%;你滿懷期望地買了50張彩票,朋友卻告訴你,傻瓜才去白花這50塊錢,因?yàn)槟阒歇?jiǎng)的概率只有一億分之一;你手臂上長(zhǎng)了一個(gè)“肉瘤”,醫(yī)生初步檢查后安慰你,這塊東西是惡性瘤的概率只有0.03%,萬(wàn)分之三而已……生活中“概率”這個(gè)詞太常見(jiàn)了,以至于人們不細(xì)想也大概知道是個(gè)什么意思,比如說(shuō),最后一個(gè)例子中,0.03%的惡性概率的意思不就是說(shuō),“10000個(gè)這樣的肉瘤中,只有3個(gè)才會(huì)是惡性的”嗎?因此,在經(jīng)典意義上,概率就可以被粗糙地定義為事件發(fā)生的頻率,即發(fā)生次數(shù)與總次數(shù)的比值。更準(zhǔn)確地說(shuō),是總次數(shù)趨于無(wú)限時(shí),這個(gè)比值趨近的極限。
雖然“概率”的定義不難懂,好像人人都會(huì)用,但你可能不知道,概率計(jì)算的結(jié)果經(jīng)常違背我們的直覺(jué),概率論中有許多難以解釋、似是而非的悖論。不能完全相信直覺(jué)!我們的大腦會(huì)產(chǎn)生誤區(qū)和盲點(diǎn),就像開(kāi)汽車的駕駛員視覺(jué)中有“盲點(diǎn)”,需要幾面鏡子來(lái)克服一樣,我們的思維過(guò)程中也有盲點(diǎn),需要通過(guò)計(jì)算和思考來(lái)澄清。概率論是一個(gè)經(jīng)常出現(xiàn)與直覺(jué)相悖的奇怪結(jié)論的領(lǐng)域,連數(shù)學(xué)家也是稍有不慎便會(huì)錯(cuò)得一塌糊涂。現(xiàn)在,我們就首先舉例說(shuō)明經(jīng)典概率中的一個(gè)悖論,叫作“基本比率謬誤(base rate fallacy)”。
我們從一個(gè)生活中的例子開(kāi)始。王宏去醫(yī)院做化驗(yàn),檢查他患上某種疾病的可能性。其結(jié)果居然為陽(yáng)性,把他嚇了一大跳,趕忙在網(wǎng)上查詢。網(wǎng)上的資料說(shuō),檢查總是有誤差的,這種檢查有“1%的假陽(yáng)性率和1%的假陰性率”。這句話的意思是說(shuō),在得病的人中做檢查,有1%的人是假陰性,99%的人是真陽(yáng)性。而在未得病的人中做檢查,有1%的人是假陽(yáng)性,99%的人是真陰性。于是,王宏根據(jù)這種解釋,估計(jì)他自己得了這種疾病的可能性(即概率)為99%。王宏想,既然只有1%的假陽(yáng)性率,99%都是真陽(yáng)性,那我在人群中已被感染這種病的概率便應(yīng)該是99%。
可是,醫(yī)生卻告訴他,他在普通人群中被感染的概率只有0.09 (9%)左右。這是怎么回事呢?王宏的思路誤區(qū)在哪里?
醫(yī)生說(shuō):“99%?哪有那么大的感染概率啊。99%是測(cè)試的準(zhǔn)確性,不是你得病的概率。你忘了一件事:被感染這種疾病的正常比例是不大的,1000個(gè)人中只有一個(gè)人患病。”
原來(lái)這位醫(yī)生在行醫(yī)之余,也喜愛(ài)研究數(shù)學(xué),經(jīng)常將概率方法用于醫(yī)學(xué)上。他的計(jì)算方法基本上是這樣的:因?yàn)闇y(cè)試的誤報(bào)率是1%,1000個(gè)人將有10個(gè)被報(bào)為“假陽(yáng)性”,而根據(jù)這種病在人口中的比例(1/1000=0.1%),真陽(yáng)性只有1個(gè),所以,大約11個(gè)測(cè)試為陽(yáng)性的人中只有一個(gè)是真陽(yáng)性(有病)的,因此,王宏被感染的概率大約是1/11,即0.09(9%)。
王宏思來(lái)想去仍感到糊涂,但這件事激發(fā)了王宏去重溫他之前學(xué)過(guò)的概率論。經(jīng)過(guò)反復(fù)閱讀,再思考琢磨醫(yī)生的算法之后,他明白了自己犯了那種叫作“基本比率謬誤”的錯(cuò)誤,即忘記使用“這種病在人口中的基本比例(1/1000)”這個(gè)事實(shí)。
談到基本比率謬誤,我們最好是先從概率論中著名的貝葉斯定理【2】說(shuō)起。托馬斯·貝葉斯(Thomas Bayes,1701—1761)是英國(guó)統(tǒng)計(jì)學(xué)家,曾經(jīng)是個(gè)牧師。貝葉斯定理是他對(duì)概率論和統(tǒng)計(jì)學(xué)做出的最大貢獻(xiàn),是當(dāng)今人工智能中常用的機(jī)器學(xué)習(xí)的基礎(chǔ)框架,它的思想之深刻遠(yuǎn)超一般人所能認(rèn)知,也許貝葉斯自己生前對(duì)此也認(rèn)識(shí)不足。因?yàn)槿绱酥匾某晒皡s并未發(fā)表,是在他死后的1763年才由朋友發(fā)表的。
粗略地說(shuō),貝葉斯定理涉及兩個(gè)隨機(jī)變量A和B的相互影響,如果用一句話來(lái)概括,這個(gè)定理說(shuō)的是:利用B帶來(lái)的新信息,應(yīng)如何修改B不存在時(shí)A的“先驗(yàn)概率”P(A),從而得到B存在時(shí)的“條件概率”P(A|B),或稱后驗(yàn)概率,如果寫成公式:

這里先驗(yàn)、后驗(yàn)的定義是一種約定俗成,是相對(duì)的。比如說(shuō)也可以將A、B反過(guò)來(lái)敘述,即如何從B的先驗(yàn)概率P(B),得到B的“條件概率”P(B|A),見(jiàn)圖中虛線所指。
不要害怕公式,通過(guò)例子,我們就能慢慢理解它。例如,對(duì)前面王宏看病的例子,隨機(jī)變量A表示“王宏得某種病”;隨機(jī)變量B表示“王宏的檢查結(jié)果”。先驗(yàn)概率P(A)指的是王宏在沒(méi)有檢查結(jié)果時(shí)得這種病的概率(即這種病在公眾中的基本概率0.1%);而條件概率(或后驗(yàn)概率)P(A|B)指的是王宏“檢查結(jié)果為陽(yáng)性”的條件下得這種病的概率(9%)。如何從基本概率修正到后驗(yàn)概率的?我們待會(huì)兒再解釋。
貝葉斯定理是18世紀(jì)的產(chǎn)物,200來(lái)年用得好好的,卻不想在20世紀(jì)70年代遇到了挑戰(zhàn),該挑戰(zhàn)來(lái)自于丹尼爾·卡尼曼(Daniel Kahneman,1934—)和特維爾斯基(Tversky)提出的“基本比率謬誤”。前者是以色列裔美國(guó)心理學(xué)家,2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主。基本比率謬誤并不是否定貝葉斯定理,而是探討一個(gè)使人困惑的問(wèn)題:為什么人的直覺(jué)經(jīng)常與貝葉斯公式的計(jì)算結(jié)果相違背?如同剛才的例子所示,人們?cè)谑褂弥庇X(jué)的時(shí)候經(jīng)常會(huì)忽略基礎(chǔ)概率。卡尼曼等人在他們的文章《思考,快與慢》中舉了一個(gè)出租車的例子,來(lái)啟發(fā)人們思考這個(gè)影響人們“決策”的原因。我們不想在這里深談基本比率謬誤對(duì)“決策理論”的意義,只是借用此例來(lái)加深對(duì)貝葉斯公式的理解。
假如某城市有兩種顏色的出租車:藍(lán)色和綠色(市場(chǎng)占有比例為15∶85)。一輛出租車夜間肇事后逃逸,但還好當(dāng)時(shí)有一位目擊證人,這位目擊者認(rèn)定肇事的出租車是藍(lán)色的。但是,他“目擊的可信度”如何呢?公安人員在相同環(huán)境下對(duì)該目擊者進(jìn)行“藍(lán)綠”測(cè)試得到:80%的情況下識(shí)別正確,20%的情況不正確。也許有讀者立刻就得出了結(jié)論:肇事車是藍(lán)色的概率應(yīng)該是80%吧。如果你做此回答,便是犯了與上面例子中王宏同樣的錯(cuò)誤,忽略了先驗(yàn)概率,沒(méi)有考慮在這個(gè)城市中“藍(lán)綠”車的基本比例。
那么,肇事車是藍(lán)色的(條件)概率到底應(yīng)該是多少呢?貝葉斯公式能給出正確的答案。首先我們必須考慮藍(lán)綠出租車的基本比例(15∶85)。也就是說(shuō),在沒(méi)有目擊證人的情況下,肇事車是藍(lán)色的概率只有15%,這是“A=藍(lán)車肇事”的先驗(yàn)概率P(A)= 15%。現(xiàn)在,有了一位目擊者,便改變了事件A出現(xiàn)的概率。目擊者看到車是“藍(lán)”色的。不過(guò),他的目擊能力也要打折扣,只有80%的準(zhǔn)確率,即也是一個(gè)隨機(jī)事件(記為B)。我們的問(wèn)題是求出在有該目擊證人“看到藍(lán)車”的條件下肇事車“真正是藍(lán)色”的概率,即條件概率P(A|B)。后者應(yīng)該大于先驗(yàn)概率15%,因?yàn)槟繐粽呖吹健八{(lán)車”。如何修正先驗(yàn)概率?需要計(jì)算P(B|A)和P(B)。
因?yàn)?span id="wisgvci" class="italic">A=藍(lán)車肇事、B=目擊藍(lán)色,所以P(B|A)是在“藍(lán)車肇事”的條件下“目擊藍(lán)色”的概率,即P(B|A)=80%。最后還要算先驗(yàn)概率P(B),它的計(jì)算麻煩一點(diǎn)。P(B)指的是目擊證人看到一輛車為藍(lán)色的概率,等于兩種情況的概率相加:一種是車為藍(lán),辨認(rèn)也正確;另一種是車為綠,錯(cuò)看成藍(lán)。所以:
P(B)=15%×80%+85%×20%=29%
從貝葉斯公式:

可以算出在有目擊證人情況下肇事車輛是藍(lán)色的概率為41%,同時(shí)也可求得肇事車輛是綠車的概率為59%。被修正后的“肇事車輛為藍(lán)色”的條件概率41%大于先驗(yàn)概率15%很多,但是仍然小于肇事車為綠色的概率0.59。
回到對(duì)王宏測(cè)試某種病的例子,我們也不難得出正確的答案:
A:普通人群中的王宏感染某種病
B:陽(yáng)性結(jié)果
P(A):普通人群中感染某種病的概率
P(B|A):陽(yáng)性結(jié)果的正確率
P(A|B):有了陽(yáng)性結(jié)果的條件下,王宏感染某種病的概率
P(B):結(jié)果為陽(yáng)性的總可能性=檢查陽(yáng)性中的真陽(yáng)性+檢查陰性中的真陽(yáng)性

通過(guò)以上介紹的概率論中的基本比率謬誤,我們初步了解了概率論中十分重要的貝葉斯定理及其簡(jiǎn)單應(yīng)用。