序

從 2009 年我在加州大學伯克利分校最初發起項目至今，Apache Spark 已經發生了天翻地覆的變化。在捐獻給 Apache 軟件基金會后，這個開源項目累計有來自數百家公司超過 1400 名貢獻者參與貢獻，全球的 Spark meetup 小組成員更是已經超過 50 萬。Spark 的用戶基礎已經非常多樣化，包含 Python、R、SQL 和 JVM 的開發人員，使用 Spark 的場景從數據科學到商業智能，再到數據工程。一直以來，我與 Apache Spark 社區緊密合作，繼續推進 Spark 的發展，目前的進展讓我興奮不已。

Spark 3.0 的發布是 Spark 項目的重大里程碑，也激起了更新學習材料的需求。出版本書第 2 版的想法已經出現了多次，真是千呼萬喚始出來！雖然我參與了本書第 1 版和《Spark 權威指南》的寫作，但應該將講解 Spark 的機會交給下一代的 Spark 貢獻者了。我很榮幸地看到，從早期就開始深度參與 Apache Spark 項目的 4 位經驗豐富的開發人員組成了團隊來撰寫這本書的第 2 版，為其他 Spark 開發人員整理了最新的 API 和最佳實踐，提供了這樣一本簡明實用的指南。

作者對這本書的內容編排非常適合動手學習。Spark 和分布式大數據處理中的關鍵概念已經提煉為循序漸進的章節。這本書的代碼示例簡單明了，通過邊做邊學，開發人員可以建立起使用 Spark 的自信，并對 Spark 的結構化數據 API 及其使用獲得更深刻的理解。無論你要用 Spark 解決什么問題，我希望這本書都能引導你在大規模數據處理之路上前進。

——Matei Zaharia
Databricks 聯合創始人兼首席技術專家、斯坦福大學助理教授、Apache Spark 創始人

官术网_书友最值得收藏!

Spark快速大數據分析（第2版）

序