官术网_书友最值得收藏!

第1章 探索性數據分析

如果能將數據與實際方法相結合,就可以在存在不確定性時解答問題并指導決策,這就是本書的主題。

舉個例子。我的妻子在懷第一胎時,我聽到了一個問題:第一胎是不是經常晚于預產期出生?下面所給出的案例研究就是由這個問題引出的。

如果用谷歌搜索這個問題,會看到大量的討論。有人認為第一胎的生產日期確實經常晚于預產期,有人認為這是無稽之談,還有人認為恰恰相反,第一胎常常會早產。

在很多此類討論中,人們會提供數據來支持自己的觀點。我發現很多論據是下面這樣的。

“我有兩個朋友最近都剛生了第一個孩子,她們都是超過預產期差不多兩周才出現臨產征兆或進行催產的。”

“我的第一個孩子是過了預產期兩周才出生的,我覺得第二個孩子可能會早產兩周!”

“我認為這種說法不對,因為我姐姐是頭生子,而且是早產兒。我還有好些表兄妹也是這樣。”

這些說法都是基于未公開的數據,通常來自個人經驗,因此稱為軼事證據(anecdotal evidence)。在閑聊時講講軼事當然無可厚非,所以我并不是要批評以上那幾個人。

但是,我們可能需要更具說服力的證據以及更可靠的回答。如果按照這個標準進行衡量,軼事證據通常都靠不住,原因有如下幾點。

?觀測值數量較小如果第一胎的孕期的確偏長,這個時間差與正常的偏差相比可能很小。在這種情況下,我們可能需要比對大量的孕期數據,才能確定這種時間差確實存在。

?選擇數據時存在偏倚人們之所以參與這個問題的討論,有可能是因為自己的第一個孩子出生較晚。這樣的話,這個選擇數據的過程就會對結果產生影響。

?確認數據時存在偏倚贊同這種說法的人也許更可能提供例子進行佐證。持懷疑態度的人則更可能引用反例。

?不精確軼事通常都是個人經驗,經常會記錯、誤傳或者誤解等。

那我們該如何更好地回答這個問題呢?

主站蜘蛛池模板: 邛崃市| 棋牌| 德兴市| 桂东县| 双江| 松原市| 合山市| 黔东| 五常市| 大埔县| 朝阳区| 嵊州市| 赤壁市| 平武县| 拉萨市| 宕昌县| 嵩明县| 囊谦县| 柏乡县| 佛坪县| 化州市| 湘潭县| 明光市| 平乐县| 合肥市| 开远市| 砀山县| 屏东县| 贞丰县| 枝江市| 东丰县| 申扎县| 克拉玛依市| 台南县| 荆州市| 喀喇| 泰和县| 延长县| 洪雅县| 苏尼特右旗| 忻城县|