官术网_书友最值得收藏!

1.6 本書導航

如果你之前從未使用過Python,那你可能需要先閱讀本書的第2章和第3章,我在這兩章中簡要介紹了Python的特點、IPython命令行和Jupyter notebook。

接下來,我簡單介紹了NumPy的關鍵特性,附錄A介紹了更高級的NumPy功能。然后,我介紹了pandas,本書剩余的內容則聚焦于用pandas、NumPy和matplotlib(用于可視化)處理數據分析問題。我已經盡量用循序漸進的方式串聯全書知識,但偶爾會有章節之間的交叉,有時涉及的概念在之前沒有介紹過。

盡管讀者的最終工作目標不同,但任務大體可以分為以下幾類:

與外部世界交互

讀寫各種格式的文件和數據存儲。

數據準備

對數據進行清洗、整理、聯合、正態化、重塑、切片、切塊和轉換,以進行分析。

數據轉換

對多組數據集進行數學和統計操作,生成新的數據集(例如,通過分組參數連接成一個大表)。

建模和計算

將數據接入統計模型、機器學習算法或其他計算工具。

演示

創建交互式或靜態的圖形可視化或文本概述。

1.6.1 代碼示例

本書大部分代碼示例的輸入形式和輸出結果都會仿照其在IPython或Jupyter notebook中執行的樣子進行排版:

當你看到類似的代碼示例時,就是讓你在編碼環境中的In代碼框輸入代碼,按回車鍵執行(Jupyter中是按Shift-Enter鍵)。然后就可以在Out代碼框看到輸出結果。

為了提高本書的可讀性和簡潔性,我修改了默認的NumPy和pandas控制臺輸出設置。例如,你在數值數據中會看到更多的精度數字。為了完全匹配本書的輸出結果,在運行代碼示例之前,可以執行如下Python代碼:

1.6.2 示例數據

各章示例的數據集都存放在GitHub倉庫(https://github.com/wesm/pydata-book)中。如果無法訪問GitHub,請訪問Gitee上的鏡像地址(https://gitee.com/wesmckinn/pydata-book)。讀者既可以使用Git版本控制命令行程序下載數據,也可以從網站的倉庫下載數據的zip壓縮包文件。如果遇到問題,可以到本書網站(https://wesmckinney.com/book)獲取關于如何獲得本書資料的最新指導。

如果讀者下載好了包含示例數據集的zip文件,必須將壓縮包完整解壓到一個文件夾中。運行本書代碼示例之前,還需要將終端路徑切換到這個文件夾:

為了讓所有示例都能重現,我已經盡力讓GitHub倉庫包含所有必需的東西,但仍然可能會有一些錯誤或遺漏。如果你發現了問題,請發郵件至book@wesmckinney.com。報告本書錯誤的最好方法是O'Reilly的勘誤頁(http://www.bit.ly/pyDataAnalysis_errata)。

1.6.3 引用慣例

Python社區已經廣泛采取了一些常用模塊的命名慣例:

也就是說,當你看到np.arange時,它引用的是NumPy中的arange函數。之所以這么做,是因為在Python軟件開發過程中從類似NumPy這種大型包一次性導入全部內容(from numpy import*)是一種不好的做法。


[1]如今作為ActivateState平臺的一部分,Komodo IDE是免費的。

主站蜘蛛池模板: 阿尔山市| 汽车| 时尚| 鄱阳县| 长沙市| 贺兰县| 晋城| 晋城| 英德市| 宜阳县| 兴义市| 岐山县| 泌阳县| 固始县| 萝北县| 开阳县| 兴隆县| 拉萨市| 乃东县| 黑河市| 望奎县| 河曲县| 蓬安县| 民县| 平利县| 濮阳市| 肇东市| 彰武县| 吉林市| 龙海市| 平江县| 乌什县| 明水县| 通河县| 崇义县| 平果县| 中牟县| 鄢陵县| 土默特右旗| 丹巴县| 怀柔区|