官术网_书友最值得收藏!

內容簡介

本書共分3部分,主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格,以及Python中基礎的map和reduce函數,并介紹如何將對象持久化,通過惰性函數和并行函數來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫來編寫Hadoop作業,如何實現PageRank算法,如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹云計算和云存儲的基礎知識,包括如何通過boto3的Python庫將文件上傳到AWS S3服務,以及如何在AWS的EMR集群中運行分布式的Hadoop和Spark作業。

本書適合有一定Python編程基礎,且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。

主站蜘蛛池模板: 东港市| 阳江市| 汉中市| 桃源县| 确山县| 顺昌县| 新闻| 漾濞| 田林县| 铁力市| 普兰店市| 郁南县| 丹东市| 崇仁县| 汪清县| 房山区| 巢湖市| 漯河市| 蚌埠市| 科技| 精河县| 图木舒克市| 靖江市| 和静县| 临泉县| 正镶白旗| 花垣县| 五大连池市| 新和县| 雷波县| 阿坝| 东乡族自治县| 天镇县| 锡林郭勒盟| 武强县| 黑龙江省| 山阴县| 白朗县| 福建省| 鄄城县| 普陀区|