- 統計學關我什么事:生活中的極簡統計學
- (日)小島寬之
- 651字
- 2019-01-04 22:38:41
2-1 計算罹患癌癥的概率
本講是通過一些容易獲取客觀數據的案例,對于貝葉斯推理進行說明。需要了解的重點是,理解“如果從客觀的數據來考慮的話,反而會容易陷入誤解之中”的問題。在這里,你會發現概率的不可思議。
下面,用醫療診查來舉例進行說明。
在醫療發達的當今社會,我們能夠獲得多數病癥的統計數據。另外,在發覺自己出現了一定癥狀之前,就能夠發現病情的技術也在不斷發展進步。但是,依然存在一個問題:如何判斷通過檢查得出的“是/不是X病情”這一結果的準確性呢?
假設,你接受了一項“如果患了特定的癌癥的話,結果有95%的概率為陽性的檢查”,并且在之后收到了結果為陽性的報告。此時,你會判斷自己患該癌癥的概率為95%嗎?
答案是“不會”。
如果“自己患癌癥的概率真的為95%”的話,你肯定會對這個結果感到非常悲觀。實際上,對此做出錯誤判斷的人大概有很多吧。但是,從“陽性”這個結果來推斷“你患了癌癥的概率”,這也并不是一個特別高的數字。
在該推算中,由于是從“陽性”這一“結果”追溯到“患癌癥”這一“原因”,因此可看作貝葉斯推理的典型案例。
在本講中,我們首先進行問題的設定。以下數據是為了簡化計算而假設的虛構數值,并非真實的數據。
問題設定
假設,某種特定的癌癥的患病率為0.1%(0.001)。有一個簡易的方法能夠檢查出是否患上這種癌癥:患上這種癌癥的人中有95%(0.95)的概率被診斷為陽性。但另一方面,健康人群也有2%(0.02)的可能性被誤診為陽性。那么,如果在這個檢查中被診斷為陽性的時候,實際患上這種癌癥的概率為多少呢?
2-2 根據醫療數據,設定“先驗概率”
該推算的順序,與第一講中進行的推算順序完全相同。因為具體事例有所區別,帶給各位讀者的印象可能會不太一樣,因此,下文將沿襲第一講的方式,對推算的順序進行詳細說明。
這個例子的特殊性在于,先驗概率是一項客觀存在的流行病學數據。第一講中已經解釋過,先驗概率,是“在獲得信息之前,各個類別的存在概率”。在這個案例中共有兩種類別:一種是“罹患癌癥的人”,另一種是“健康的人”。
正如問題設定中所述,這種癌癥的罹患率為0.001,因此流行病學認為,1000人中有1人會罹患這種癌癥。因此,如果要在檢查前推測自己是否罹患這種癌癥的話,如下面的圖表2-1所示。
圖表2-1 根據癌癥罹患率得出的先驗分布

下面,重新解釋一遍該圖。
該圖表示的是:在接受簡易檢查診斷之前,判斷你是否罹患了癌癥的可能性。你所在的世界分為左側表示“罹患癌癥”和右側表示“身體健康”的兩個“可能世界”,而你一定處在這兩個可能世界中的一個當中。所以并不知道到底屬于哪一個世界,僅僅是作為推測而已。也就是說,世界分為了兩個互不相同的部分(可能性分為了兩種)。
但是,并非完全沒有辦法來推測你究竟處在哪個“可能世界”。通過流行病學數據我們知道,這種癌癥的罹患率為0.001。也就是說,統計顯示,1000人中有1人罹患這種癌癥,所以,這可以作為判斷你是否罹患該種癌癥的參考。如果直接套用的話,可以推算罹患該種癌癥的概率為0.001。也就是說,“你究竟屬于兩個可能世界中的哪一個”的問題,在沒有任何個人信息的情況下,屬于左側世界的概率可被推算為0.001,屬于右側世界的概率可被推算為0.999。