- 深入大型數據集:并行與分布化Python代碼
- (美)J.T.沃勒翰
- 261字
- 2021-03-04 19:24:12
內容簡介
本書共分3部分,主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格,以及Python中基礎的map和reduce函數,并介紹如何將對象持久化,通過惰性函數和并行函數來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫來編寫Hadoop作業,如何實現PageRank算法,如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹云計算和云存儲的基礎知識,包括如何通過boto3的Python庫將文件上傳到AWS S3服務,以及如何在AWS的EMR集群中運行分布式的Hadoop和Spark作業。
本書適合有一定Python編程基礎,且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。
推薦閱讀
- 黑客攻防從入門到精通(實戰秘笈版)
- VMware View Security Essentials
- Spring 5.0 By Example
- SQL學習指南(第3版)
- Learning Data Mining with Python
- Access 2010數據庫基礎與應用項目式教程(第3版)
- Java加密與解密的藝術
- Mastering macOS Programming
- QGIS:Becoming a GIS Power User
- SharePoint Development with the SharePoint Framework
- 精通Python設計模式(第2版)
- 批調度與網絡問題的組合算法
- SQL Server與JSP動態網站開發
- PHP從入門到精通(第4版)(軟件開發視頻大講堂)
- Advanced Express Web Application Development