- 大數據技術體系詳解:原理、架構與實踐
- 董西成
- 739字
- 2019-01-04 11:06:13
1.5 Hadoop與Spark版本選擇及安裝部署
1.5.1 Hadoop與Spark版本選擇
隨著社區迅猛發展以及各大互聯網公司投入的增加,Hadoop與Spark已經成為大數據技術標準,這吸引了大量商業公司基于開源Hadoop與Spark版本實現自己的發行版,目前比較知名的Hadoop發行版有:
? Apache Hadoop:社區原始版本,由Apache基金會維護,是其他商業公司發行版的基礎。
? CDH(Cloudera Distributed Hadoop):Cloudera公司發行版,其社區版所有源代碼均開源,但企業版則閉源且收費,是使用最廣泛的發行版之一,本書實驗部分便是基于CDH版本的。
? HDP(Hortonworks Data Platform):Hortonworks公司發行版,其社區版所有源代碼也開源,但企業版則閉源收費。
比較知名的Spark發行版有:
? Apache Spark:社區原生版本,由Apache基金會維護,是其他商業公司發行版的基礎。
? Databricks Spark:Databricks公司發行版,其社區版所有源代碼均開源,內置企業版本,增加安全、審計、云等方面的支持。
? Hadoop企業發行版:各大Hadoop企業發行版,比如HDP和CDH,均內置了對Spark的支持。
各個發行版之間同一系統對外使用方式和接口是完全兼容的,不同之處在于它們引入了不同系統解決某個場景的問題,比如CDH選擇Impala解決交互式分析問題,而HDP選擇Hive On Tez; CDH引入了Cloudera Navigator和Sentry解決安全問題,而HDP則使用Ranger和Knox,另外,它們均提供了個性化的運維與管理工具等。在線上環境部署私有Hadoop與Spark集群時,為了避免各個系統之間兼容性(比如HBase不同版本與Hadoop版本之間的兼容性)帶來的麻煩,建議大家直接選用商業公司發行版。
1.5.2 Hadoop與Spark安裝部署
目前Hadoop與Spark存在兩種安裝部署方式:人工部署和自動化部署。其中人工部署用于個人學習、測試或者小規模生產集群,而自動化部署則適用于線上中大規模部署。為了讓讀者親自動手學習Hadoop與Spark,本書主要介紹人工部署方式。讀者可參考本書最后的附錄,學習Hadoop生態系統中各個組件的安裝部署方法。對于自動化部署方式,我們有兩種選擇:自己構建自動化部署系統及使用商業公司實現方案,比如Ambari和Cloudera Manager
。