官术网_书友最值得收藏!

第1章
準備工作

1.1 本書內容

本書講解利用Python進行數據操作、處理、清洗、規整等的基本要點和具體細節,目標是介紹Python編程語言及其用于數據的庫生態和工具,掌握這些知識可以讓你成為一名稱職的數據分析師。雖然本書書名中包含“數據分析”,但內容重點是Python編程、庫和工具,而不是數據分析方法論。本書主要介紹數據分析需要用到的Python編程知識。

本書第1版在2012年出版后,人們開始使用“數據科學”一詞籠統地描述從簡單的描述性統計到更為復雜的統計分析及機器學習的所有工作。自2012年起,Python開源數據分析(或數據科學)生態得到了極大發展。目前有許多其他書籍專門講解這些更高級的方法。希望本書可以讓讀者做好充分的準備,以便以后學習更細分領域的知識。

什么樣的數據

當書中提到“數據”時,主要指的是結構化數據,例如:

●表格型或電子表格型數據,其中各列可能是不同的類型(字符串、數值、日期等)。比如保存在關系型數據庫中或以制表符/逗號為分隔符的文本文件中的數據。

●多維數組(矩陣)。

●通過關鍵列(對于SQL用戶而言,就是主鍵和外鍵)相互聯系的多個表。

●平均或不平均間隔的時間序列。

這里沒有列舉所有格式的數據。大部分數據集都能被轉化為更加適合分析和建模的結構化形式,雖然有時這并不是很明顯。如果不行的話,也可以將數據集的特征提取為某種結構化形式。例如,一組新聞文章可以被處理為一個詞頻表,而這個詞頻表就可以用于情感分析。

大部分電子表格軟件(比如Microsoft Excel,可能是世界上使用最廣泛的數據分析工具)的用戶不會對此類數據感到陌生。

主站蜘蛛池模板: 洞头县| 淅川县| 宜川县| 喜德县| 泽普县| 滨海县| 大化| 新宁县| 仙桃市| 多伦县| 汉中市| 当涂县| 兴宁市| 祁东县| 于田县| 旺苍县| 阿坝县| 马关县| 会泽县| 汤原县| 阿荣旗| 泰宁县| 根河市| 绥化市| 梁平县| 蒙阴县| 岑溪市| 孝感市| 花莲市| 靖宇县| 合水县| 通城县| 静安区| 论坛| 平陆县| 诸暨市| 长葛市| 克拉玛依市| 临西县| 东丰县| 鄂温|