官术网_书友最值得收藏!

1.5 Hadoop與Spark版本選擇及安裝部署

1.5.1 Hadoop與Spark版本選擇

隨著社區迅猛發展以及各大互聯網公司投入的增加,Hadoop與Spark已經成為大數據技術標準,這吸引了大量商業公司基于開源Hadoop與Spark版本實現自己的發行版,目前比較知名的Hadoop發行版有:

? Apache Hadoop:社區原始版本,由Apache基金會維護,是其他商業公司發行版的基礎。

? CDH(Cloudera Distributed Hadoop):Cloudera公司公司官網:http://www.cloudera.com/發行版,其社區版所有源代碼均開源,但企業版則閉源且收費,是使用最廣泛的發行版之一,本書實驗部分便是基于CDH版本的。

? HDP(Hortonworks Data Platform):Hortonworks公司公司官網:http://hortonworks.com/發行版,其社區版所有源代碼也開源,但企業版則閉源收費。

比較知名的Spark發行版有:

? Apache Spark:社區原生版本,由Apache基金會維護,是其他商業公司發行版的基礎。

? Databricks Spark:Databricks公司公司官網:https://databricks.com/發行版,其社區版所有源代碼均開源,內置企業版本,增加安全、審計、云等方面的支持。

? Hadoop企業發行版:各大Hadoop企業發行版,比如HDP和CDH,均內置了對Spark的支持。

各個發行版之間同一系統對外使用方式和接口是完全兼容的,不同之處在于它們引入了不同系統解決某個場景的問題,比如CDH選擇Impala解決交互式分析問題,而HDP選擇Hive On Tez; CDH引入了Cloudera Navigator和Sentry解決安全問題,而HDP則使用Ranger和Knox,另外,它們均提供了個性化的運維與管理工具等。在線上環境部署私有Hadoop與Spark集群時,為了避免各個系統之間兼容性(比如HBase不同版本與Hadoop版本之間的兼容性)帶來的麻煩,建議大家直接選用商業公司發行版。

1.5.2 Hadoop與Spark安裝部署

目前Hadoop與Spark存在兩種安裝部署方式:人工部署和自動化部署。其中人工部署用于個人學習、測試或者小規模生產集群,而自動化部署則適用于線上中大規模部署。為了讓讀者親自動手學習Hadoop與Spark,本書主要介紹人工部署方式。讀者可參考本書最后的附錄,學習Hadoop生態系統中各個組件的安裝部署方法。對于自動化部署方式,我們有兩種選擇:自己構建自動化部署系統及使用商業公司實現方案,比如Ambarihttp://ambari.apache.org/和Cloudera Managerhttp://www.cloudera.com/content/www/en-us/products/cloudera-manager.html

主站蜘蛛池模板: 定兴县| 珠海市| 正安县| 临海市| 乌海市| 高唐县| 新晃| 武安市| 望江县| 呼图壁县| 惠东县| 杭锦旗| 农安县| 宾阳县| 西林县| 甘谷县| 喀喇沁旗| 长兴县| 靖宇县| 南陵县| 塔城市| 北宁市| 曲沃县| 海丰县| 平度市| 丰台区| 化州市| 洛宁县| 高清| 龙陵县| 临西县| 乌拉特中旗| 红原县| 浮梁县| 秭归县| 庆元县| 西乌珠穆沁旗| 湛江市| 本溪市| 济阳县| 福安市|