官术网_书友最值得收藏!

<var id="kx3p6"></var>

<strike id="kx3p6"><table id="kx3p6"><kbd id="kx3p6"></kbd></table></strike>

<sup id="kx3p6"></sup><fieldset id="kx3p6"></fieldset><span id="kx3p6"><i id="kx3p6"><em id="kx3p6"></em></i></span><menu id="kx3p6"><form id="kx3p6"><tfoot id="kx3p6"></tfoot></form></menu>

<td id="kx3p6"><code id="kx3p6"><small id="kx3p6"></small></code></td>

<span id="kx3p6"><i id="kx3p6"></i></span>

<sup id="kx3p6"></sup>

<strike id="kx3p6"><code id="kx3p6"></code></strike>

<strike id="kx3p6"></strike>

<span id="kx3p6"><code id="kx3p6"><em id="kx3p6"></em></code></span>

書名：深入大型數據集：并行與分布化Python代碼
作者名： (美)J.T.沃勒翰
本章字數： 261字
更新時間： 2021-03-04 19:24:12

內容簡介

本書共分3部分，主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格，以及Python中基礎的map和reduce函數，并介紹如何將對象持久化，通過惰性函數和并行函數來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架，以及如何使用mrjob庫來編寫Hadoop作業，如何實現PageRank算法，如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹云計算和云存儲的基礎知識，包括如何通過boto3的Python庫將文件上傳到AWS S3服務，以及如何在AWS的EMR集群中運行分布式的Hadoop和Spark作業。

本書適合有一定Python編程基礎，且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。

主站蜘蛛池模板：东港市| 阳江市| 汉中市| 桃源县| 确山县| 顺昌县| 新闻| 漾濞| 田林县| 铁力市| 普兰店市| 郁南县| 丹东市| 崇仁县| 汪清县| 房山区| 巢湖市| 漯河市| 蚌埠市| 科技| 精河县| 图木舒克市| 靖江市| 和静县| 临泉县| 正镶白旗| 花垣县| 五大连池市| 新和县| 雷波县| 阿坝| 东乡族自治县| 天镇县| 锡林郭勒盟| 武强县| 黑龙江省| 山阴县| 白朗县| 福建省| 鄄城县| 普陀区|

<span id="hg1sh"><i id="hg1sh"></i></span>

<strike id="hg1sh"><form id="hg1sh"></form></strike>

<strike id="hg1sh"><form id="hg1sh"><kbd id="hg1sh"></kbd></form></strike>

<strike id="hg1sh"></strike>

<fieldset id="hg1sh"><form id="hg1sh"></form></fieldset>

<strike id="hg1sh"><form id="hg1sh"><kbd id="hg1sh"></kbd></form></strike>

<fieldset id="hg1sh"></fieldset>

<span id="hg1sh"><i id="hg1sh"><nobr id="hg1sh"></nobr></i></span>