- 統計思維:程序員數學之概率統計(第2版)
- (美)Allen B.Downey
- 721字
- 2020-06-23 13:42:25
第1章 探索性數據分析
如果能將數據與實際方法相結合,就可以在存在不確定性時解答問題并指導決策,這就是本書的主題。
舉個例子。我的妻子在懷第一胎時,我聽到了一個問題:第一胎是不是經常晚于預產期出生?下面所給出的案例研究就是由這個問題引出的。
如果用谷歌搜索這個問題,會看到大量的討論。有人認為第一胎的生產日期確實經常晚于預產期,有人認為這是無稽之談,還有人認為恰恰相反,第一胎常常會早產。
在很多此類討論中,人們會提供數據來支持自己的觀點。我發現很多論據是下面這樣的。
“我有兩個朋友最近都剛生了第一個孩子,她們都是超過預產期差不多兩周才出現臨產征兆或進行催產的。”
“我的第一個孩子是過了預產期兩周才出生的,我覺得第二個孩子可能會早產兩周!”
“我認為這種說法不對,因為我姐姐是頭生子,而且是早產兒。我還有好些表兄妹也是這樣。”
這些說法都是基于未公開的數據,通常來自個人經驗,因此稱為軼事證據(anecdotal evidence)。在閑聊時講講軼事當然無可厚非,所以我并不是要批評以上那幾個人。
但是,我們可能需要更具說服力的證據以及更可靠的回答。如果按照這個標準進行衡量,軼事證據通常都靠不住,原因有如下幾點。
?觀測值數量較小如果第一胎的孕期的確偏長,這個時間差與正常的偏差相比可能很小。在這種情況下,我們可能需要比對大量的孕期數據,才能確定這種時間差確實存在。
?選擇數據時存在偏倚人們之所以參與這個問題的討論,有可能是因為自己的第一個孩子出生較晚。這樣的話,這個選擇數據的過程就會對結果產生影響。
?確認數據時存在偏倚贊同這種說法的人也許更可能提供例子進行佐證。持懷疑態度的人則更可能引用反例。
?不精確軼事通常都是個人經驗,經常會記錯、誤傳或者誤解等。
那我們該如何更好地回答這個問題呢?
推薦閱讀
- Python數據可視化:基于Bokeh的可視化繪圖
- AWS Serverless架構:使用AWS從傳統部署方式向Serverless架構遷移
- WSO2 Developer’s Guide
- 編寫高質量代碼:改善Python程序的91個建議
- Android程序設計基礎
- RealSenseTM互動開發實戰
- 平面設計經典案例教程:CorelDRAW X6
- Visual Basic程序設計(第三版)
- Django Design Patterns and Best Practices
- PHP 8從入門到精通(視頻教學版)
- .NET 4.0面向對象編程漫談:應用篇
- Software Development on the SAP HANA Platform
- Java語言程序設計實用教程(第2版)
- Serverless從入門到進階:架構、原理與實踐
- 利用Python駕馭Stable Diffusion:原理解析、擴展開發與高級應用(智能系統與技術叢書)