- 白話大數據與機器學習
- 高揚 衛崢 尹會生等
- 1772字
- 2019-01-03 16:36:46
3.1 排列組合的概念
3.1.1 公平的決斷——扔硬幣
排列組合是本書介紹的第一個概率論概念,也是在高中學過的一個概率學的入門概念。概念記不清了也不要緊,現在回憶一下在中學學過的排列組合都有哪些經典問題來著。
首先是扔硬幣(圖3-2)。

圖3-2 排列組合的經典場景——扔硬幣(見彩插)
如果一個勻質的硬幣——也就是扔出正面朝上和反面朝上各有一半可能性的硬幣,我們連扔3次,產生3次朝上的可能性有多大?
這個計算應該不算難,首先每一次扔出,每一個面的可能性是一樣的,即正面1/2的可能性,反面也是1/2的可能性。
那么第一次扔,正面朝上是1/2的可能性,反面朝上也是1/2的可能性。
在第一次正面朝上的情況下,第二次扔,正面朝上的可能性仍然是1/2,反面朝上也是1/2的可能性。(即正正,正反。)
而在第一次反面朝上的情況下,第二次扔,正面朝上的可能性仍然是1/2,反面朝上也是1/2的可能性。(即反正,反反。)
也就是說連扔兩次,兩次結果為“正正”、“正反”、“反正”、“反反”的可能性都是完全一樣的,各是1/4。
以此類推,連扔3次,3次都是正面朝上的可能性應該為1/8,即概率為1/8或12.5%。也就是說,3次朝上分別為“正正正”、“正正反”、“正反正”、“正反反”、“反正正”、“反正反”、“反反正”、“反反反”。這幾種的可能性是一樣大的(圖3-3)。

圖3-3 正反面朝上的可能性
我們可以想想在生活中的例子,扔硬幣和扔骰子很多時候都作為大家憑運氣講公平的一種裁決手段,如兩個人打賭賭單雙數或者大小數,4個人打麻將決定抓牌位置,我們都會借助硬幣或者骰子這樣的幾率產生均等的工具來將公平進行到底,當然那些手法出眾或者出老千的情況除外。
在影視作品里曾看到過一些賭徒為了讓自己扔骰子擲出6點的概率增加而在6點的正對面放置鉛彈一類的重物,使得骰子的6個面中6點被擲出的幾率遠高于其他幾面(圖3-4)。而一旦被人識破,該賭徒則會被其他賭徒毆打甚至是殺害。顯然,在事先得知骰子被做了如此手腳之后,是不會再有興趣和該賭徒博弈的,因為掌握這種嚴重不對稱信息的人會成為不敗的贏家,因為這種機會的均等性被破壞了,造成極大的“不公平”。

圖3-4 “不公平”的骰子
如果一個隨機試驗所包含的單位事件(就是剛才說的3次朝上分別為“正正正”、“正正反”……這其中每一種情況都是單位事件)是有限的,且每個單位事件發生的可能性均相等,則這個隨機試驗叫做拉普拉斯試驗,這種條件下的概率模型就叫古典概型。古典概型也叫傳統概率,該定義是由法國著名數學家拉普拉斯(Laplace)提出的。
這種使用窮舉有限多個可能性,并且根據可能性在所有事件中所占比例求出可能性的問題,就可以使用排列組合的方式來進行計算。
3.1.2 非古典概型
上述“古典概型”的特點是“包含的單位事件是有限的,且每個單位事件發生的可能性均相等”。單位事件指的就是拋出一個“正正正”或者“正正反”這種一個確定的試驗結果的事件。可能性均等就是“正正正”、“正正反”……一共8種情況,每種情況產生的機會是一樣的。
那么是不是也有不符合古典概型的反例呢?也就是說“包含的單位事件不是有限的或每個單位事件發生的可能性不均等”則不算是古典概型,有這樣的例子嗎?
有的。首先,剛剛提到的賭徒改造骰子的例子就是“每個單位事件發生的可能性不均等”的例子,那么這種情況下就不能使用窮舉、排列組合的方法進行計算,算出來也和試驗結果不一致;再者,還是使用骰子擲數的例子,用兩個骰子來擲。因為每個骰子的擲出范圍為1~6個點,所以兩個骰子扔出的范圍是2~12個點。但是需要注意,雖然骰子擲出每個點的機會是一樣的,但是2~12這11個點產生的可能性不是一樣的。兩個骰子都扔出1才產生2,所以概率為1/36,同理12的概率也是1/36。但是6就不一樣了,兩個骰子的點數可以為1和5、2和4、3和3、4和2、5和1,每種情況的概率都是1/36,相加得5/36。所以對于兩個骰子扔出2~12個點,每個點產生的概率可就不一樣了,那每個點的概率必然不能是1/11。好在產生2~12這11個點的每種情況中,各自是由兩個古典概型組成的,還能分解以后各自求解(圖3-5)。

圖3-5 兩個骰子擲出的點數
而“包含的單位事件不是有限的”這種例子其實也很多,例如,我想知道我每天出門碰到熟人的概率。這種問題用古典概型也是不能解決的,所有單位事件的定義非常復雜,每個單位事件也不能通過類似扔骰子這么簡單的事情就描述清楚,還有時間、地點等各種復雜的情況,當然是沒有辦法用古典概型來獲解的。
- 同步:秩序如何從混沌中涌現
- Java Data Science Cookbook
- 劍破冰山:Oracle開發藝術
- Hadoop與大數據挖掘(第2版)
- Access 2016數據庫技術及應用
- 算法與數據中臺:基于Google、Facebook與微博實踐
- Python數據分析:基于Plotly的動態可視化繪圖
- 數據科學實戰指南
- 探索新型智庫發展之路:藍迪國際智庫報告·2015(下冊)
- 跨領域信息交換方法與技術(第二版)
- 爬蟲實戰:從數據到產品
- Oracle 11g+ASP.NET數據庫系統開發案例教程
- Deep Learning with R for Beginners
- 算力經濟:從超級計算到云計算
- Oracle 11g數據庫管理員指南