- 利用Python進行數據分析(原書第3版)
- (美)韋斯·麥金尼
- 621字
- 2024-03-04 16:53:19
第1章
準備工作
1.1 本書內容
本書講解利用Python進行數據操作、處理、清洗、規整等的基本要點和具體細節,目標是介紹Python編程語言及其用于數據的庫生態和工具,掌握這些知識可以讓你成為一名稱職的數據分析師。雖然本書書名中包含“數據分析”,但內容重點是Python編程、庫和工具,而不是數據分析方法論。本書主要介紹數據分析需要用到的Python編程知識。
本書第1版在2012年出版后,人們開始使用“數據科學”一詞籠統地描述從簡單的描述性統計到更為復雜的統計分析及機器學習的所有工作。自2012年起,Python開源數據分析(或數據科學)生態得到了極大發展。目前有許多其他書籍專門講解這些更高級的方法。希望本書可以讓讀者做好充分的準備,以便以后學習更細分領域的知識。
什么樣的數據
當書中提到“數據”時,主要指的是結構化數據,例如:
●表格型或電子表格型數據,其中各列可能是不同的類型(字符串、數值、日期等)。比如保存在關系型數據庫中或以制表符/逗號為分隔符的文本文件中的數據。
●多維數組(矩陣)。
●通過關鍵列(對于SQL用戶而言,就是主鍵和外鍵)相互聯系的多個表。
●平均或不平均間隔的時間序列。
這里沒有列舉所有格式的數據。大部分數據集都能被轉化為更加適合分析和建模的結構化形式,雖然有時這并不是很明顯。如果不行的話,也可以將數據集的特征提取為某種結構化形式。例如,一組新聞文章可以被處理為一個詞頻表,而這個詞頻表就可以用于情感分析。
大部分電子表格軟件(比如Microsoft Excel,可能是世界上使用最廣泛的數據分析工具)的用戶不會對此類數據感到陌生。
推薦閱讀
- DevOps:軟件架構師行動指南
- Apache Oozie Essentials
- Visual Basic 6.0程序設計計算機組裝與維修
- 深入淺出Java虛擬機:JVM原理與實戰
- Manga Studio Ex 5 Cookbook
- 碼上行動:零基礎學會Python編程(ChatGPT版)
- Programming ArcGIS 10.1 with Python Cookbook
- Apache Spark 2.x for Java Developers
- Java系統化項目開發教程
- Clojure for Java Developers
- 深入理解BootLoader
- Natural Language Processing with Python Quick Start Guide
- Java EE 7 with GlassFish 4 Application Server
- WebStorm Essentials
- 程序員的成長課