譯者序

在經歷了二十余年互聯網和移動互聯網的發展之后，我們已經生活在一個大數據日益盛行的時代。數據早已不再是一臺計算機、服務器可以存儲下的，而需要成百上千臺機器才能完成存儲工作。數據規模也已經從以前的MB、GB級別，跨越到了TB、PB級別。并行化和分布式編程技能對開發人員的日常工作變得越來越重要，越來越多的開發人員正面臨著因數據集太大而導致的問題。無論是社交、電商、短視頻等如今日益流行的領域，還是人們的日常生活，都已經讓我們越來越認識到大數據的價值。

在大數據的生態發展過程中，涌現了大量的新技術和框架，包括我們較為熟悉的Hadoop、Hive、Spark等，以及在大數據基礎上再次發展起來的AI技術。應該說，這10年的技術發展浪潮都起源于我們可以開始處理以前無法想象的數據量。但是，無論新技術如何發展，底層的核心思想依然沒有發生變化，那就是map和reduce的編程范式。如今以Hadoop為基石建立起來的大數據體系，正是map和reduce編程范式的體現。本書并沒有介紹太多花哨的技術和框架，反而花費了大量篇幅講解底層的map和reduce思想，再一步步拓展到如何用Python實現單機程序，如何用Hadoop、Spark等框架實現分布式計算，以及如何在云上的計算集群中處理更大規模的數據。這樣的思路讓人有“撥開迷霧，返璞歸真”之感。

本書適合有一定Python編程基礎，且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。

感謝家人、朋友、同事一直以來對我的鼓勵和支持。本譯著難免會存在一些紕漏，懇請讀者諒解并指出。

官术网_书友最值得收藏!

深入大型數據集：并行與分布化Python代碼

譯者序