官术网_书友最值得收藏!

最簡單概率論的五個智慧

我認為人人都應該學點概率知識。在日常生活中,概率論比萬有引力公式和基因的復制機制都重要,它是現代社會的公民必備的知識。現在的世界比過去復雜得多,其中有大量的不確定性。是否理解概率,直接決定了一個人的“開化”程度。當不懂概率的人大驚小怪的時候,懂概率的人可以淡定自若。

大多數人在中學就學習過概率,但掌握概率的計算方法不等于真正理解概率。實際上,概率論中的幾個關鍵思想,是多數數學老師沒有講明白,甚至根本就沒有講的。理解這些思想甚至不需要會做任何計算,但是它們能讓我們看世界的眼光發生根本性的改變。

這些思想的邏輯都很簡單,我們可以從最簡單的概率論中得到五個智慧。

1.隨機

概率論最基礎的思想是,有些事情是無緣無故地發生的。

這個思想對我們的世界觀具有顛覆性的意義。古人沒有這個思想,認為一切事情的發生都是有原因的,甚至可能都是有目的的。人們曾經認為世界像一個鐘表一樣精確地運行。但真實世界不是鐘表,它充滿不可控的偶然。

更嚴格地說,有些事情的發生,跟它之前發生的任何事情,都可以沒有因果關系。你不管做什么都不能讓它一定發生,也不能讓它一定不發生。

如果一個人考上了好大學,人們會說這是她努力學習的結果;如果一個人事業成功,人們會說這是他努力工作的結果。可是如果一個人買彩票中了大獎,這又是為什么呢?答案就是沒有任何原因,這完全是一個隨機事件。總會有人買彩票中獎,而這一期彩票誰中獎,跟他是不是好人,他在之前各期買過多少彩票,他是否關注中獎號碼的走勢,沒有任何關系。

如果有一個人總買彩票,他中獎的概率總會比別人大點吧?的確。他一生之中中一次獎的概率比那些只是偶然買一次彩票的人大。但是當他跟上千萬個人一起面對一次開獎的時候,他不具有任何優勢。他之前所有的努力,對他在這次開獎中的運氣沒有任何幫助。一個此前從來都沒買過彩票的人,完全有可能,而且有同樣大的可能,在某一次開獎中把最高獎金拿走。

中獎,既不是他自己努力的結果,也不是“上天”對他有所“垂青”;不中,不等于任何人在跟他作對。這就是“隨機”,你沒有任何辦法左右結果。這很容易理解,對吧?

大多數事情并不是完全的隨機事件,卻都有一定的隨機因素。偶然和必然如果結合在一起,就沒那么容易理解了。人們經常錯誤地理解偶然,總想用必然去解釋偶然。

體育比賽是最典型的例子。球隊贏了球,人人有功,記者幫著分析取勝之道;球隊輸了球,人人有責,里里外外都要進行反思。但比賽其實是充滿偶然的事件,你所能做的只是盡可能地爭取勝利。哪怕你準備得再好,總有一些因素是不確定的,也就是我們通常說的運氣。我很少聽到記者把輸球或贏球的原因歸結于運氣,人們被隨機性所迷惑,狂喜狂怒從不淡定,甚至不惜人身攻擊。實際上,現代職業化競技體育中參賽者之間的實力差距往往并沒有天壤之別,決定比賽結果的偶然因素非常大。強隊也能輸給弱隊,是現代體育的重要特征,也是其魅力所在。如果強隊一定勝利,比賽還有什么懸念?從這個意義上說,我們看比賽看的就是這個隨機性。這就難怪《黑天鵝》的作者塔勒布(Nassim Nicholas Taleb)在《黑天鵝語錄》(The Bed of Procrustes)一書中說:

Sports are commoditized and,alas,prostituted randomness.

體育是商品化,甚至是賣淫化了的隨機性。

所以對智者來說偶然因素是不值得較真的,這場輸了下場可以贏回來,只要輸少贏多你還是強隊。

理解隨機性,我們就知道有些事情發生就發生了,沒有太大可供解讀的意義。我們不能從這件事中獲得什么教訓,不值得較真,甚至根本就不值得采取行動。比如民航客機非常安全,但再完美的交通工具也不可能百分之百的安全。你會因為極小的事故概率而不坐飛機嗎?我們只要確定事故概率比其他旅行方式更低就可以了——甚至連這都不需要,我們只要確定這個概率小到我們能夠容忍就可以了。為偶然事件大驚小怪,甚至一朝被蛇咬十年怕井繩,是幼稚的表現。

管理者有個常見的思維模式,一旦出了事就必須全體反思,制定相關政策以避免類似事故再次發生,但極小概率事故其實是不值得過度反應的。哪怕是因為員工犯了錯而引起的,也沒必要如此。37signals公司的兩位創始人弗萊德(Jason Fried)和漢森(David Heinemeier Hansson)在2010年出了一本書《重來》(Rework),講公司創業和管理之道。在我看來此書一個亮點就是它強調不要一看有人犯了錯就為此大張旗鼓地制定政策來糾正錯誤。那樣只會把錯誤變成傷疤,而且會讓公司越來越官僚主義。正確的辦法是告訴犯錯的員工這是一個錯誤,然后就完了。

偶然的錯誤不值得深究,成績也不值得深究。現代概率論的奠基者之一雅各布·伯努利,甚至認為我們根本就不應該基于一個人的成就去贊美他[1]。用成績評估一個人的能力,來決定是否讓他入學、是否給他升職加薪,是現代社會的普遍做法,對此人人都服氣,童叟無欺非常公平。這還有什么可說的?問題在于,成績可能有很大的偶然因素。失敗者沒必要妄自菲薄,成功者也應該明白自己的成功中是有僥幸的。

2.誤差

既然絕大多數事情都同時包含偶然因素和必然因素,我們自然就想排除偶然去發現背后的必然。偶然的失敗和成就不值得大驚小怪,我根據必然因素去做判斷,這總可以吧?

可以,但是你必須理解誤差。

歷史上最早的科學家曾經不承認實驗可以有誤差,認為所有的測量都必須是精確的,把任何誤差都歸結于錯誤。后來人們才慢慢意識到偶然因素永遠存在,即使實驗條件再精確也無法完全避免隨機干擾的影響,所以做科學實驗往往要測量多次,用取平均值之類的統計手段去得出結果。

多次測量,是一個排除偶然因素的好辦法。國足輸掉比賽之后經常抱怨偶然因素,有時候是因為裁判不公,有時候是因為主力不在,有時候是因為不適應客場氣候,有時候是因為草皮太軟,有時候是因為草皮太硬。關鍵是,如果你經常輸球,我們還是可以得出你是個弱隊的結論。

國際足聯的世界排名,是根據各國球隊多次比賽的成績采用加權平均的辦法統計出來的,這個排名比一兩次比賽的勝負,甚至世界杯賽的名次更能說明球隊的實力。但即便如此,我們也不能說國際足聯的排名就是各個球隊的“真實實力”。這是因為各隊畢竟只進行了有限次數的比賽,再好的統計手段,也不可能把所有的偶然因素全部排除。

即便是科學實驗也是如此。科學家哪怕是測量一個定義明確的物理參數,也不可能給出最后的“真實答案”——他們總是在測量結果上加一個誤差范圍。比如最近的一個重大物理發現是用實驗證實了希格斯粒子的存在,物理學家說希格斯粒子的質量是125.3±0.4(stat)±0.5(sys)GeV。這句話的意思是說,質量是125.3,但其中有±0.4的統計誤差,還有±0.5的系統誤差。真實的質量當然只有一個,但是這個數是多少,我們不知道——它可以是這個誤差范圍內的任何一個數字。事實上,真實質量甚至可以是誤差范圍外的一個數字!這是因為誤差范圍是一個概率計算的結果,這個范圍的意思是說物理學家相信真實值落在這個范圍以外的可能性非常非常小。

所以“真實值”非常不易得,而且別忘了科學實驗是非常理想化的事件。大多數事件根本沒機會多次測量。既然如此,我們對測量結果的解讀就又要加一層小心。如果只能測一次,那么對這一次測量的結果應該怎么解讀?我們可以根據以往的經驗,或者別處、別人的類似案例,來估計一個大致的誤差范圍。

有了誤差的概念,我們就要學會忽略誤差范圍內的任何波動。

中國只有一個,任何關于中國此時此刻的統計,都只能測一次。2014年1月,國家統計局公布了2013年全國居民收入基尼系數為0.473,新聞報道說:“該數據雖較2012年0.474的水平略有回落,但仍顯示居民收入差距較大。”這個“回落”有多大?0.001。從統計角度來說其實沒什么意義,可能你的測量誤差就大大超過0.001。

考試成績也是如此,假設一個同學考了兩次才過英語四級,第一次57分,第二次63分。他說這是略有進步,我說你這不叫進步,叫都在測量誤差范圍之內。

3.賭徒謬誤

假如你一個人在賭場賭錢,比如玩老虎機。你一上來運氣就不太好,一連輸了很多把。這時候你是否會有一種強烈的感覺,你很快就該贏了呢?

這是一種錯覺。賭博是完全獨立的隨機事件,這意味著下一把的結果跟以前所有的結果沒有任何聯系,已經發生了的事情不會影響未來。我們舉一個簡單的例子,假設瓶子里裝著六個球,上面寫著1到6,作為每一次的中獎號碼。每次抽獎的時候,你要從六個球中隨便拿一個,而這六個球被你拿到的機會是相等的,都是1/6。現在假設前面幾期抽獎中6出現的次數的確比2多,那么這一次抽獎的時候,你是否就會有更大機會抽到2呢?不會!這些球根本不記得誰曾經被抽到過,2號球不會主動跑過來讓你抽。它們被抽到的概率仍然都是1/6。

概率論中的確有一個“大數定律”,說如果進行足夠多次的抽獎,那么各種不同結果出現的頻率就會等于它們的概率——對上面這個例子來說就是如果你抽取足夠多次,你得到“2”的結果數應該跟得到“6”的結果數大致相等。

但人們常常錯誤地理解隨機性和大數定律——以為隨機就意味著均勻。如果過去一段時間內發生的事情不那么均勻,人們就錯誤地以為未來的事情會盡量往“抹平”的方向走,用更多的“2”去平衡此前多出來的“6”。但大數定律的工作機制不是跟過去搞平衡,它的真實意思是說如果未來你再進行非常多次的抽獎,你會得到非常多的“2”和非常多的“6”,以至于它們此前的一點點差異會變得微不足道。

我曾經看到有自以為懂概率的人寫道“比如號碼2已經連續出現了3期,而號碼6已經連續出現了5期,則再下一次號碼中2再出現的概率明顯大于6”,這完全錯誤。下一次出現號碼2和6的概率是相等的。這是一個著名的錯誤,被稱作“賭徒謬誤”(Gambler's fallacy),全世界的賭場里每天都有人在不停地犯這個錯誤。現在我們再回過頭來看,這其實是一個很簡單的道理。

但是這個錯誤在生活中還可以以不同的方式上演。比如有個笑話說一個人坐飛機的時候總是帶著一顆炸彈,他認為這樣就不會有恐怖分子炸飛機了——因為一架飛機上有兩顆炸彈的可能性應該非常小!再比如戰場上的士兵有個說法,如果戰斗中有炸彈在你身邊爆炸,你應該快速跳進那個彈坑——因為兩顆炸彈不太可能正好打到同一個地方[2]。這都是不理解獨立隨機事件導致的。

4.在沒有規律的地方發現規律

理解了隨機性和獨立隨機事件,我們可以得到一個結論:獨立隨機事件的發生是沒有規律和不可預測的。這是一個非常重要的智慧。

“彩票分析學”是深受彩民喜愛的一門顯學。這門學問完全合法地出現在各種晚報、新浪網、搜狐網甚至人民網上,認為彩票的中獎號碼跟股票一樣,存在“走勢”。它使用“雙色歷史號碼”“余數走勢”“五行碼”等五花八門的數字曲線,使用“奇偶分析”“跨度分析”“大中小分析”,幫助彩民預測下一期中獎號碼。彩票分析師信誓旦旦地聲稱他們能在一定程度上預測中獎號碼,最起碼也能評估最可能出現的號碼范圍。

這些分析學跟賭徒謬誤不同。賭徒謬誤是認為前面多次出現的號碼不會繼續出現,而彩票分析學則認為中獎號碼存在“走勢”,分析師相信這里面有規律——所以近期多次出現的組合可能會繼續出現,或者按照這個趨勢可以預測下一個號碼。

但是我們知道中獎號碼是純粹的隨機現象,根本沒有規律。沒錯,有時候賭場里的某個賭具可能存在缺陷,使得一個號碼中獎的可能性略高于其他號碼,如果你能發現并利用這個缺陷的確可以因此獲利。但要想發現這個缺陷必須統計成百上千次開獎,要想利用這個缺陷也必須玩上成百上千把。而且這個缺陷是簡單的:無非是某個特定號碼出現的可能性略大一點,完全談不上什么復雜規律。

明明沒規律,這些彩票分析師到底是怎么看出規律來的呢?也許他們并不是故意騙人的,而是很可能真的相信自己找到了彩票的規律。

我上小學的時候,有一次數學課上講到“素數”這個概念。老師列舉素數,班上一個同學突然非常興奮地舉手說:“我發現了一個規律!”老師就問他發現了什么規律,他說:“你看素數3、5、7、13、17、19……它們的結尾都是這幾個數字!”他發現的這個“規律”其實是除了2以外的素數都是奇數。這的確是一個“性質”,并不是真正的“規律”,因為你無法用它去預測下一個素數,比如9和15都是奇數,符合這個“規律”,卻都不是素數。

發現規律是人的本能——春天過后是夏天,烏云壓頂常下雨,大自然中很多事情的確是有規律的。有一種邏輯題,給你幾個數字或者圖形,讓你發現它們排列的規律并指出下一個出現的數字或圖形是什么。比如這道題:1,2,1,2,__,任何人都一眼就能看出來下一個數字是1。我兒子在連10以內加減法都算不順溜的時候就已經非常善于做這種題了,根本不用教,一看就會。

我們的本能工作得如此之好,以至于我們在明明沒有規律的地方也能找出規律來。人腦很擅長理解規律,但是很不擅長理解隨機性。發現規律任何時候都可以幫助我們更好地生存下去,而理解隨機性卻是只在現代社會才有意義的一個技能。

在沒有規律的地方硬找規律是個相當容易的事情,只要你愿意忽略所有不符合你這個規律的數據。9和15不是素數?那叫意外!你完全可以說你的理論是科學但更是藝術,只有神秘的經驗才能告訴你忽略了哪些數據——別人用這個規律預測不準那是因為他們功夫不到家——再者,畢竟連天氣預報都不敢保證一定準確,不是嗎?

如果數據足夠多,我們可以找到任何我們想要的規律。比如說圣經密碼。有人拿圣經做字符串游戲,在特定的位置中尋找能對應世界大事的字母組合,并聲稱這是圣經對后世的預言。問題是,這些“預言”可以完美地解釋已經發生的事情,等到預測尚未發生的事情的時候就沒有那么好的成績了。關鍵在于圣經里有很多很多字符,你如果仔細找,尤其是在借助計算機的情況下,總能找到任何想要的東西。在這個精神下我建議搞一個“毛澤東密碼”,在標準版《毛澤東選集》中尋找中文字詞的排列組合,也許會“發現”他早就預測了中國后世發生的所有大事。

彩票無規律,圣經密碼是無稽之談,那么我再問一個問題:地震發生的年份有規律嗎?

地震不是彩票,并不是完全的隨機事件。有些地區地震會比較頻繁,我們大概可以知道平均每隔若干年就會發生一次。但是這樣的“規律”是非常模糊的,就算是地震高發區也有可能連續好幾年都不地震,不常地震的地區也可能一年內發生好幾次地震。地震不會精確地按照一個特定的數字順序發生。

可是,有一門學問卻認為地震和各種自然災害會嚴格按照某種數學規律發生,甚至用研究數學——確切地說是做數字游戲——的辦法去預測地震。這個方法叫作“可公度性理論”,它的創始人是中國科學院院士翁文波。翁院士早年在石油勘探方面做出過杰出貢獻[3],而根據互動百科[4],他曾經多次預測了國內外的地震。

我對“可公度性理論”持非常懷疑的態度。這個理論跟地震沒有任何關系,它只是簡單地把一些年份數字進行加減組合。有記者拿著翁文波所著的《預測學》一書給中科院物理所院士何祚庥和研究員李淼看,二人均完全持否定的態度[5]。李淼說:“感覺就是把東西堆砌在一起,相互之間沒有關聯,邏輯之間也沒有連續性。”何祚庥說:“說白了就是沒什么道理的。”方舟子和新語絲網站則更直接地指出翁文波的理論是偽科學。

事實上,就算我們相信冥冥之中有一種神秘的機制在左右地震,且這個機制可以純粹由數學決定而與地質學無關,“可公度性理論”也是站不住腳的。這個理論根本就沒有一個自洽的操作規則,對一次具體的預測到底應該采用什么數字組合非常隨意。假設讓兩個最好的學生同時使用這個理論去預測,他們將有極大的可能性得出完全不同的結果——就如同你從《圣經》的字母排列組合里可以找到任何想要的東西一樣。

未來是不可被精確預測的。這個世界并不像鐘表那樣運行。

5.小數定律

現在,我們知道,在數據足夠多的情況下,人們可以找到任何自己想要的規律,只要你不在乎這些規律的嚴格性和自洽性。那么,在數據足夠少的情況下又會如何呢?

如果數據足夠少,有些“規律”會自己跳出來,你甚至不相信都不行。

人們抱著游戲或者認真的態度總結了關于世界杯足球賽的各種“定律”[6],比如一個著名的定律是“巴西隊的禮物”——只要巴西隊奪冠,下一屆的冠軍就將是主辦大賽的東道主,除非巴西隊自己將禮物收回,這一定律在2006年被破解;另一個著名的“1982軸心定律”——世界杯奪冠球隊以1982年世界杯為中心呈對稱分布,也在2006年被破解。還有一些定律是沒有被破解的,比如“凡是獲得了聯合會杯或者美洲杯,就別想在下一屆世界杯奪冠”。中國的職業聯賽也有自己的定律,比如“王治郅定律”——只要王治郅參加季后賽,八一隊就必然獲得總冠軍(已破解),以及“0∶2落后無人翻盤定律”(尚未破解)。

如果你仔細研究這些定律,你會發現不容易破解的定律其實都有一定的道理。王治郅和八一隊都很強,0∶2落后的確很難翻盤,而獲得世界杯冠軍是件非常不容易的事情,更別說同時獲得聯合會杯、美洲杯和世界杯了。但不容易發生不等于不會發生,它們終究會被破解。那些看似沒有道理的神奇定律(正因為沒道理才更顯神奇),則大多已經被破解了。之所以“神奇”,是因為其純屬巧合。世界杯總共才進行了80多年,20多屆。只要數據足夠少,我們總能發現一些沒有被破解的“規律”。

如果數據少,隨機現象可以看上去“很不隨機”,甚至非常整齊,感覺就好像真有規律一樣。

如果你曾經被河南人騙過,如果你恰好聽說自己的一個朋友也被河南人騙過,如果你進一步發現網上也有個人被河南人騙過,你是否會得出結論說河南騙子多呢?如果去年有個清華大學畢業的碩士被查出來抄襲,今年又有個清華大學教授被查出來抄襲,你是否會得出結論說清華大學縱容抄襲呢?

即使考慮到河南是個人口大省,而清華大學這樣的名校的媒體曝光率比較高,這兩個地方的壞消息似乎也比相同量級的省份或相同知名度的大學高了一點。所以,結論難道不是明擺著的嗎?如果騙子是在中國各個人口大省隨機分布的,如果抄襲者是在中國各個名牌大學隨機分布的,那為什么恰恰是河南和清華大學“脫穎而出”?

在下結論之前,我們先考察1940年的倫敦大轟炸[7]。當時倫敦在德軍V2導彈的攻擊下損失慘重,報紙公布標記了所有受到轟炸地點的倫敦地圖之后,人們發現轟炸點的分布很不均勻。有些地區反復受到轟炸,而有些地區卻毫發無損。

難道德軍在轟炸倫敦的時候故意放過了某些地區嗎?

對英國軍方來說這是一件非常恐怖的事情,因為這意味著V2導彈的精度比預想的要高得多,以至于德軍可以精確地選擇轟炸目標。而倫敦居民則相信,那些沒有遭到轟炸的地區是德國間諜居住的地方。有些人甚至開始搬家。

然而事后證明V2導彈是一個精度相當差的實驗性質的武器,與其說是導彈還不如說是大炮——德軍只能大概地把它打向倫敦,而根本無法精確地控制落點。也就是說,倫敦各地區受到的轟炸完全是隨機的。一直到1946年,有人從數學角度分析了轟炸數據,把整個可能受到轟炸的地區分為576個小塊,發現其中229個小塊沒有受到任何轟炸,而有8個小塊受到了4 次以上的轟炸。這些數據雖然不均勻,但完全符合隨機分布。實際上,科學家可以用計算機模擬的辦法得到更多“看上去很不隨機”的隨機結果。

問題的關鍵是隨機分布不等于均勻分布。人們往往認為,如果是隨機的,那就應該是均勻的,殊不知這一點僅在樣本總數非常大的時候才有效。當初 iPod(蘋果公司推出的便攜式數字多媒體播放器) 最早推出“隨機播放”功能的時候,用戶發現有些歌曲會被重復播放,他們據此認為播放根本不隨機。蘋果公司只好放棄真正的隨機算法,用喬布斯本人的話說,就是改進以后的算法使播放“更不隨機以至于讓人感覺更隨機”。一旦出現不均勻,人們就會認為其中必有緣故,而事實卻是這可能只是偶然事件。

如果統計數字很少,就很容易出現特別不均勻的情況。這個現象被諾貝爾經濟學獎得主丹尼爾·卡尼曼戲稱為“小數定律”。卡尼曼說如果我們不理解小數定律,我們就不能真正理解大數定律。

大數定律是我們從統計數字中推測真相的理論基礎。大數定律[8]說如果統計樣本足夠大,那么事物出現的頻率就能無限接近它的理論概率——也就是它的“本性”。所以,如果抽樣調查發現一個地區某種疾病的發病率較高,我們就可以大致認為這個地區的這種疾病發病率真的很高。

而小數定律說如果樣本不夠大,那么它就會表現為各種極端情況,而這些情況可能跟本性一點關系也沒有。

哪怕一個硬幣再完美,你也可能會連投4次都是正面朝上,這個結果看似有點怪,但跟連投10次都正面朝上不可同日而語。一個人口很少的小鎮發現對某種疾病有較高的發病率,跟一個大城市有同樣大小的發病率,不應該引起同樣的重視。一個只有20人的鄉村中學某年突然有2人考上清華大學,跟一個有2000人的中學每年都有200人考上清華大學,完全沒有可比性。

如果你的統計樣本不夠大,你什么也說明不了。

正因為如此,我們才不能只憑自己的經驗,哪怕是加上家人和朋友的經驗去對事物做出判斷。我們的經驗非常有限。別看個例,看大規模統計。有的專欄作家聽說兩三個負面新聞就敢寫文章把社會批得一文不值,這樣的人非常無知。

所以,理解隨機現象最大的一個好處就是你不會再輕易地大驚小怪了。


[1]這是大概的意思,伯努利的原話是“One should not appraise human action on the basis of its results.”出自The Drunkard's Walk: How Randomness Rules Our Lives一書。

[2]這個例子是清華大學趙南元教授在我博客評論中給的,在此致謝。

[3]非常令人慶幸,他不是因為地震預測的學問當選的院士。

[4]參見http://www.baike.com/wiki/翁文波。

[5]《科學新聞》文章《翁文波和他的“天災預測委員會”》,作者邸利會。http://news.sciencenet.cn/htmlnews/2009/5/219165.html?id=219165。

[6]參見互動百科有完整版,http://www.baike.com/wiki/世界杯定律。

[7]這件事在蒙洛迪諾的《醉漢的腳步》(The Drunkard's Walk)和卡尼曼的《思考,快與慢》中都有論述。

[8]大數定律的嚴格數學含義比這里說的要復雜一點,需要400個字才能解釋清楚,我就從略了。

主站蜘蛛池模板: 乐清市| 克山县| 伊春市| 德江县| 盖州市| 怀宁县| 梁河县| 无为县| 石屏县| 辽阳市| 天等县| 广东省| 墨江| 凤冈县| 旅游| 余庆县| 深水埗区| 凤山县| 印江| 东兰县| 循化| 浮梁县| 乡宁县| 札达县| 苏州市| 和静县| 白银市| 射阳县| 青河县| 郓城县| 镇雄县| 福泉市| 博白县| 宜川县| 剑川县| 西和县| 黎城县| 连山| 依兰县| 房产| 航空|