- Spark快速大數據分析(第2版)
- (美)朱爾斯·S. 達米吉 布魯克·韋尼希 丹尼·李 (印)泰瑟加塔·達斯
- 496字
- 2021-12-06 11:51:03
1.1.3 Spark在AMPLab嶄露頭角
一批來自美國加州大學伯克利分校、具有 Hadoop MapReduce 經驗的研究人員接受了挑戰,并推出了 Spark 項目。他們認為,在交互式計算和迭代計算作業中,MR 表現得較為低效且難用,而且 MR 的學習成本較高。因此,他們一開始的出發點就是要讓 Spark 更快、更簡單、更好用。2009 年,Spark 項目在 RAD 實驗室誕生,后來該實驗室改名為 AMPLab(現在名叫 RISELab)。
早期的 Spark 論文顯示,對于某些作業,Spark 比 Hadoop MR 快 10~20 倍。現如今,Spark 已經快了好幾個數量級。Spark 項目的中心思想是,借鑒 Hadoop MR 的思想并增強系統,加上高容錯性和高并發,支持將迭代式或交互式映射和歸約計算的中間結果存儲在內存中,并向用戶提供支持多種語言、簡單、易組合的 API 作為編程模型,一站式支持各種使用場景。稍后將介紹這個所謂的“一站式”概念,這是 Spark 的重要主題之一。
到 2013 年,Spark 已經得到了廣泛使用。包括 Matei Zaharia、Ali Ghodsi、Reynold Xin、Patrick Wendell、Ion Stoica 和 Andy Konwinski 在內的一些最初的作者和研究人員將 Spark 項目捐獻給了 Apache 軟件基金會,并組建了 Databricks 公司。
2014 年 5 月,在 Apache 軟件基金會的管理下,Databricks 與開源社區的開發人員共同發布了 Apache Spark 1.0。在發布的這第一個主版本的基礎上,包括 Databricks 在內的 100 多家公司的開發人員為 Apache Spark 貢獻了大量的重要特性,整個項目保持著良好的發布頻率。
- 在你身邊為你設計Ⅲ:騰訊服務設計思維與實戰
- 算法競賽入門經典:習題與解答
- 信息系統與數據科學
- 數據之巔:數據的本質與未來
- Access 2007數據庫應用上機指導與練習
- 云計算與大數據應用
- 數據庫系統原理及應用教程(第4版)
- Creating Dynamic UIs with Android Fragments(Second Edition)
- Python金融實戰
- Spark大數據分析實戰
- Solaris操作系統原理實驗教程
- MySQL DBA修煉之道
- 數據庫與數據處理:Access 2010實現
- Scratch 2.0 Game Development HOTSHOT
- Google Cloud Platform for Architects