官术网_书友最值得收藏!

第1章
準備工作

1.1 本書內容

本書講解利用Python進行數據操作、處理、清洗、規整等的基本要點和具體細節,目標是介紹Python編程語言及其用于數據的庫生態和工具,掌握這些知識可以讓你成為一名稱職的數據分析師。雖然本書書名中包含“數據分析”,但內容重點是Python編程、庫和工具,而不是數據分析方法論。本書主要介紹數據分析需要用到的Python編程知識。

本書第1版在2012年出版后,人們開始使用“數據科學”一詞籠統地描述從簡單的描述性統計到更為復雜的統計分析及機器學習的所有工作。自2012年起,Python開源數據分析(或數據科學)生態得到了極大發展。目前有許多其他書籍專門講解這些更高級的方法。希望本書可以讓讀者做好充分的準備,以便以后學習更細分領域的知識。

什么樣的數據

當書中提到“數據”時,主要指的是結構化數據,例如:

●表格型或電子表格型數據,其中各列可能是不同的類型(字符串、數值、日期等)。比如保存在關系型數據庫中或以制表符/逗號為分隔符的文本文件中的數據。

●多維數組(矩陣)。

●通過關鍵列(對于SQL用戶而言,就是主鍵和外鍵)相互聯系的多個表。

●平均或不平均間隔的時間序列。

這里沒有列舉所有格式的數據。大部分數據集都能被轉化為更加適合分析和建模的結構化形式,雖然有時這并不是很明顯。如果不行的話,也可以將數據集的特征提取為某種結構化形式。例如,一組新聞文章可以被處理為一個詞頻表,而這個詞頻表就可以用于情感分析。

大部分電子表格軟件(比如Microsoft Excel,可能是世界上使用最廣泛的數據分析工具)的用戶不會對此類數據感到陌生。

主站蜘蛛池模板: 辽宁省| 万载县| 巴青县| 买车| 常山县| 卫辉市| 吴忠市| 周至县| 巢湖市| 丽水市| 陇南市| 托里县| 壤塘县| 湖口县| 偏关县| 河曲县| 宜黄县| 聂拉木县| 沁源县| 阿坝县| 托克逊县| 石狮市| 蓬安县| 射洪县| 永靖县| 霍城县| 隆子县| 英吉沙县| 天水市| 新源县| 吉木萨尔县| 巴中市| 临海市| 八宿县| 建宁县| 彰化县| 常宁市| 河北区| 固安县| 宜丰县| 定边县|