- 統計學關我什么事:生活中的極簡統計學
- (日)小島寬之
- 1031字
- 2019-01-04 22:38:39
1-2 第一步:通過經驗設定“先驗概率”
假設一個場景:面前有一位顧客,此時你需要做的是,推測該顧客究竟是“來買東西的人”,還是“隨便逛逛的人”。只有做出正確的判斷,才能采取正確的接待方法。

推算的第一步:將兩種顧客(來買東西的顧客、隨便逛逛的顧客)的比例進行數值分配。這句話的意思是:假設面前的這位顧客一定屬于兩種中的一種,以此為前提,該顧客為第一種或第二種的可能性分別為多少?將這個可能性用數值表示出來。
在貝葉斯統計學中,這種“某種類別的概率(比例)”有一個專有名詞,叫作“先驗概率”。“事前”的含義是:在獲得某項信息之前。此處的“信息”是指:附加的狀況,比如顧客忽然過來詢問。通過“過來詢問”這一信息,可以對顧客類別的推算進行修改,而“先驗概率”是指,在“過來詢問”或“不過來詢問”的情況發生之前進行的概率判斷。
通常,“先驗概率”可通過經驗來判斷。在特殊情況下,即使沒有類似經驗,也可以進行判斷,這部分特殊事例將在第3講進行解說,此處暫且不做討論。
根據自己的經驗,每5位顧客中就有1位是“來買東西的”,也就是說,這一部分顧客占全體的20%(0.2),那么剩下“隨便逛逛”部分的比例便為80%(0.8)。這兩個數字,便是兩類顧客的“先驗概率”。
在這個事例中,在觀察面前顧客的行為之前,判斷“該顧客是屬于概率0.2的買東西的人,還是概率0.8的隨便逛逛的人”,這個過程被稱為“某一類別的先驗分布”,如圖表1-1所示。
圖表1-1 先驗分布:分割長方形

圖表1-1中的大長方形被分割為兩部分,兩部分的面積所占比例分別為0.2和0.8,這正是分割時的訣竅。本書將在后面逐漸闡明:“面積”的概念在貝葉斯概率的計算中,起著重要的作用。
以上圖示的方法為本書獨創。希望各位讀者將這幅圖牢記于心,這樣有助于在頭腦中勾勒出貝葉斯統計學方法的大致雛形。
該圖可以理解為:將整體分為兩種不同的情況。這意味著,自己所處的環境為A或B中的一個,A情況下的顧客為“來買東西的人”,B情況下的顧客為“隨便逛逛的人”,但不知道究竟是A還是B。只是先在頭腦中構筑一個大致的印象。哲學上將這種見解稱為“可能世界”,在進行邏輯推算或概率推算時,采用這種“劃分互不相同的可能性”的思維方法,有利于整理思路。
在這里將長方形的面積設定為0.1和0.4,兩部分的比例依然為1∶4,這與設定為0.2和0.8時的比例相同。那么,為何要將面積設置為0.2和0.8呢?這是因為,用數值來計算概率的情況下,需要在多種可能性中,選取“將各部分概率相加,總和為1”的那一種,這種情況被稱為“標準化條件”。