前言

本書介紹探索性數據分析的實用工具，書中章節按照我自己處理數據集時遵循的步驟進行組織。

?導入和清洗：無論數據格式如何，我們通常都需要花費一些時間和精力進行數據的讀取、清洗和變換，并進行檢查，以確保在此過程中信息完好無損。

?單變量探索：通常情況下，我會首先逐個檢查變量，弄清變量的意義，分析變量值的分布，選擇合適的匯總統計量。

?成對探索：為了發現變量之間的關系，我會分析表格和散點圖，計算相關性并進行線性擬合。

?多變量分析：如果變量之間存在明顯關系，我就要使用多元回歸以增加控制變量，從而研究更復雜的關聯關系。

?估計和假設檢驗：在匯報統計結果時，有3個重要問題需要回答。效應規模如何？再次運行同一測量時，預期的變化性有多大？這個明顯的效應是否可能是偶然產生的？

?可視化：在數據探索中，可視化是尋找可能關系和效應的一個重要工具。如果一個明顯的效應是統計顯著的，那么可視化可以幫助我們有效地展示結果。

本書采用的是計算方法。相比數學方法，計算方法具有如下優點。

?大多數概念用Python代碼進行展示，而非數學符號。總體而言，Python代碼的可讀性更好，而且這些代碼是可執行的，讀者可以下載、運行并進行修改。

?每一章都附有練習，可以幫助讀者擴展并鞏固知識。編寫程序時，你把自己對知識的理解表達為代碼；調試代碼時，這些理解也可以得到修正。

?一些練習使用了實驗檢驗統計行為。例如，你可以通過生成隨機樣本并計算它們的總和來探索中心極限定理（Central Limit Theorem，CLT）。練習得到的可視化結果展示了CLT的工作原理及適用條件。

?一些概念很難從數學角度進行理解，卻很容易通過模擬掌握。例如，通過運行隨機模擬對p值進行近似，可以增強我們對p值含義的理解。

?由于本書使用通用編程語言（Python），因此讀者幾乎可以從任何數據源導入數據，而不必受限于使用特定統計工具進行了清洗和格式化的數據集。

本書使用基于項目的方法。在我的課堂上，學生需要完成一個為期一個學期的項目。在項目中，學生要提出一個統計問題，尋找可以解決這個問題的數據集，并將學到的各種技術應用于這個數據集。

為了展示我采用的統計分析方法，本書將介紹一個貫穿各章的案例。這個案例使用的數據來自以下兩方面資源。

?全國家庭增長調查（National Survey of Family Growth，NSFG），這一調查由美國疾病控制和預防中心（Center for Disease Control and Prevention，CDC）開展，以收集“與家庭生活、婚姻狀況、妊娠情況、生育情況、避孕情況，以及兩性健康相關的信息”。參見http://cdc.gov/nchs/nsfg.htm。

?行為危險因素監測系統（Behavioral Risk Factor Surveillance System，BRFSS），由國家慢性病預防和健康促進中心（National Center for Chronic Disease Prevention and Health Promotion）主持，以“跟蹤美國的健康狀況及風險行為”。參見http://cdc.gov/BRFSS/。

其他示例使用的數據來自美國國稅局（IRS）、美國人口普查（U.S. Census）及波士頓馬拉松賽（Boston Marathon）。

《統計思維》的第2版包含了第1版的各章，但對其中很多內容進行了大幅修改，并新增了關于回歸、時間序列分析、生存分析和分析方法的章節。本書第1版沒有使用pandas、SciPy和StatsModels，所以這些內容也都是新增的。

官术网_书友最值得收藏!

統計思維：程序員數學之概率統計（第2版）

前言