官术网_书友最值得收藏!

前言

本書介紹探索性數據分析的實用工具,書中章節按照我自己處理數據集時遵循的步驟進行組織。

?導入和清洗:無論數據格式如何,我們通常都需要花費一些時間和精力進行數據的讀取、清洗和變換,并進行檢查,以確保在此過程中信息完好無損。

?單變量探索:通常情況下,我會首先逐個檢查變量,弄清變量的意義,分析變量值的分布,選擇合適的匯總統計量。

?成對探索:為了發現變量之間的關系,我會分析表格和散點圖,計算相關性并進行線性擬合。

?多變量分析:如果變量之間存在明顯關系,我就要使用多元回歸以增加控制變量,從而研究更復雜的關聯關系。

?估計和假設檢驗:在匯報統計結果時,有3個重要問題需要回答。效應規模如何?再次運行同一測量時,預期的變化性有多大?這個明顯的效應是否可能是偶然產生的?

?可視化:在數據探索中,可視化是尋找可能關系和效應的一個重要工具。如果一個明顯的效應是統計顯著的,那么可視化可以幫助我們有效地展示結果。

本書采用的是計算方法。相比數學方法,計算方法具有如下優點。

?大多數概念用Python代碼進行展示,而非數學符號。總體而言,Python代碼的可讀性更好,而且這些代碼是可執行的,讀者可以下載、運行并進行修改。

?每一章都附有練習,可以幫助讀者擴展并鞏固知識。編寫程序時,你把自己對知識的理解表達為代碼;調試代碼時,這些理解也可以得到修正。

?一些練習使用了實驗檢驗統計行為。例如,你可以通過生成隨機樣本并計算它們的總和來探索中心極限定理(Central Limit Theorem,CLT)。練習得到的可視化結果展示了CLT的工作原理及適用條件。

?一些概念很難從數學角度進行理解,卻很容易通過模擬掌握。例如,通過運行隨機模擬對p值進行近似,可以增強我們對p值含義的理解。

?由于本書使用通用編程語言(Python),因此讀者幾乎可以從任何數據源導入數據,而不必受限于使用特定統計工具進行了清洗和格式化的數據集。

本書使用基于項目的方法。在我的課堂上,學生需要完成一個為期一個學期的項目。在項目中,學生要提出一個統計問題,尋找可以解決這個問題的數據集,并將學到的各種技術應用于這個數據集。

為了展示我采用的統計分析方法,本書將介紹一個貫穿各章的案例。這個案例使用的數據來自以下兩方面資源。

?全國家庭增長調查(National Survey of Family Growth,NSFG),這一調查由美國疾病控制和預防中心(Center for Disease Control and Prevention,CDC)開展,以收集“與家庭生活、婚姻狀況、妊娠情況、生育情況、避孕情況,以及兩性健康相關的信息”。參見http://cdc.gov/nchs/nsfg.htm

?行為危險因素監測系統(Behavioral Risk Factor Surveillance System,BRFSS),由國家慢性病預防和健康促進中心(National Center for Chronic Disease Prevention and Health Promotion)主持,以“跟蹤美國的健康狀況及風險行為”。參見http://cdc.gov/BRFSS/

其他示例使用的數據來自美國國稅局(IRS)、美國人口普查(U.S. Census)及波士頓馬拉松賽(Boston Marathon)。

《統計思維》的第2版包含了第1版的各章,但對其中很多內容進行了大幅修改,并新增了關于回歸、時間序列分析、生存分析和分析方法的章節。本書第1版沒有使用pandas、SciPy和StatsModels,所以這些內容也都是新增的。

主站蜘蛛池模板: 行唐县| 惠东县| 绥宁县| 武夷山市| 凭祥市| 岗巴县| 汾阳市| 五台县| 独山县| 兰溪市| 河北区| 平塘县| 同江市| 新津县| 古交市| 晋宁县| 肇庆市| 日土县| 龙江县| 洞口县| 左权县| 锡林浩特市| 三原县| 阳高县| 息烽县| 江津市| 临潭县| 武邑县| 桦甸市| 宁化县| 来安县| 临桂县| 西盟| 门头沟区| 习水县| 区。| 德令哈市| 深圳市| 龙胜| 营口市| 革吉县|