- Spark快速大數據分析(第2版)
- (美)朱爾斯·S. 達米吉 布魯克·韋尼希 丹尼·李 (印)泰瑟加塔·達斯
- 555字
- 2021-12-06 11:51:01
序
從 2009 年我在加州大學伯克利分校最初發起項目至今,Apache Spark 已經發生了天翻地覆的變化。在捐獻給 Apache 軟件基金會后,這個開源項目累計有來自數百家公司超過 1400 名貢獻者參與貢獻,全球的 Spark meetup 小組成員更是已經超過 50 萬。Spark 的用戶基礎已經非常多樣化,包含 Python、R、SQL 和 JVM 的開發人員,使用 Spark 的場景從數據科學到商業智能,再到數據工程。一直以來,我與 Apache Spark 社區緊密合作,繼續推進 Spark 的發展,目前的進展讓我興奮不已。
Spark 3.0 的發布是 Spark 項目的重大里程碑,也激起了更新學習材料的需求。出版本書第 2 版的想法已經出現了多次,真是千呼萬喚始出來!雖然我參與了本書第 1 版和《Spark 權威指南》的寫作,但應該將講解 Spark 的機會交給下一代的 Spark 貢獻者了。我很榮幸地看到,從早期就開始深度參與 Apache Spark 項目的 4 位經驗豐富的開發人員組成了團隊來撰寫這本書的第 2 版,為其他 Spark 開發人員整理了最新的 API 和最佳實踐,提供了這樣一本簡明實用的指南。
作者對這本書的內容編排非常適合動手學習。Spark 和分布式大數據處理中的關鍵概念已經提煉為循序漸進的章節。這本書的代碼示例簡單明了,通過邊做邊學,開發人員可以建立起使用 Spark 的自信,并對 Spark 的結構化數據 API 及其使用獲得更深刻的理解。無論你要用 Spark 解決什么問題,我希望這本書都能引導你在大規模數據處理之路上前進。
——Matei Zaharia
Databricks 聯合創始人兼首席技術專家、斯坦福大學助理教授、Apache Spark 創始人