舉報

會員
深入大型數據集:并行與分布化Python代碼
最新章節:
內容簡介
本書共分3部分,主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格,以及Python中基礎的map和reduce函數,并介紹如何將對象持久化,通過惰性函數和并行函數來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫來編寫Hadoop作業,如何實現PageRank算法,如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹云計算和云存儲的基礎知識,包括如何通過boto3的Python庫將文件上傳到AWSS3服務,以及如何在AWS的EMR集群中運行分布式的Hadoop和Spark作業。本書適合有一定Python編程基礎,且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。
最新章節
- 內容簡介
- 總結
- 12.3 練習
- 12.2 在EMR上使用Spark來進行機器學習
- 12.1 在EMR上通過mrjob來運行Hadoop
- 12 使用Amazon的Elastic MapReduce在云上實現MapReduce
譯者:張若飛
上架時間:2021-03-04 18:33:03
出版社:電子工業出版社
上海閱文信息技術有限公司已經獲得合法授權,并進行制作發行