官术网_书友最值得收藏!

1.1.3 Spark在AMPLab嶄露頭角

一批來自美國加州大學伯克利分校、具有 Hadoop MapReduce 經驗的研究人員接受了挑戰,并推出了 Spark 項目。他們認為,在交互式計算和迭代計算作業中,MR 表現得較為低效且難用,而且 MR 的學習成本較高。因此,他們一開始的出發點就是要讓 Spark 更快、更簡單、更好用。2009 年,Spark 項目在 RAD 實驗室誕生,后來該實驗室改名為 AMPLab(現在名叫 RISELab)。

早期的 Spark 論文顯示,對于某些作業,Spark 比 Hadoop MR 快 10~20 倍。現如今,Spark 已經快了好幾個數量級。Spark 項目的中心思想是,借鑒 Hadoop MR 的思想并增強系統,加上高容錯性和高并發,支持將迭代式或交互式映射和歸約計算的中間結果存儲在內存中,并向用戶提供支持多種語言、簡單、易組合的 API 作為編程模型,一站式支持各種使用場景。稍后將介紹這個所謂的“一站式”概念,這是 Spark 的重要主題之一。

到 2013 年,Spark 已經得到了廣泛使用。包括 Matei Zaharia、Ali Ghodsi、Reynold Xin、Patrick Wendell、Ion Stoica 和 Andy Konwinski 在內的一些最初的作者和研究人員將 Spark 項目捐獻給了 Apache 軟件基金會,并組建了 Databricks 公司。

2014 年 5 月,在 Apache 軟件基金會的管理下,Databricks 與開源社區的開發人員共同發布了 Apache Spark 1.0。在發布的這第一個主版本的基礎上,包括 Databricks 在內的 100 多家公司的開發人員為 Apache Spark 貢獻了大量的重要特性,整個項目保持著良好的發布頻率。

主站蜘蛛池模板: 易门县| 会东县| 城口县| 夹江县| 新建县| 盖州市| 广丰县| 柞水县| 镇康县| 西盟| 大冶市| 黔西县| 隆林| 苏尼特右旗| 工布江达县| 张家口市| 无锡市| 鸡东县| 肥东县| 铜陵市| 绥化市| 辽源市| 和平区| 鹤庆县| 乐山市| 吴旗县| 旬阳县| 虎林市| 玉门市| 稻城县| 南丹县| 湘潭县| 绥滨县| 临夏市| 应城市| 拉萨市| 汤原县| 富平县| 陈巴尔虎旗| 汾阳市| 东光县|