官术网_书友最值得收藏!

【任務(wù)實施】

1.Spark獨立集群模式安裝

在本書所介紹的案例使用了由3臺服務(wù)器節(jié)點構(gòu)建的集群。集群的主機名、IP地址、服務(wù)器節(jié)點角色如表1-1所示。

表1-1 集群規(guī)劃

在本地模式安裝并正常運行的前提下,可以通過修改配置文件的方式和復(fù)制的方式將單個節(jié)點的安裝擴(kuò)展到多個節(jié)點,安裝時按照以下操作步驟進(jìn)行。

(1)查看配置文件。首先進(jìn)入安裝目錄的conf目錄。這個文件夾包含了配置文件,文件名稱擴(kuò)展為.template,可以直接去掉文件擴(kuò)展名進(jìn)行修改;也可以保留原始文件,復(fù)制一個新的文件,然后再去掉擴(kuò)展名.template,在新文件中修改內(nèi)容。

[hadoop@hadoop1 ~]$ cd /opt/module/spark/conf

[hadoop@hadoop1 conf]$ ls
fairscheduler.xml.template  log4j.properties.template metrics.properties.template slaves.template  
spark-defaults.conf.template  spark-env.sh.template

(2)基于slaves.template文件復(fù)制一個新的文件,然后去掉擴(kuò)展名.template,文件名稱變?yōu)閟laves。

[hadoop@hadoop1 conf]$ cp slaves.template slaves

(3)編輯slaves文件,在slaves文件中添加3臺服務(wù)器的主機名,如圖1-7所示。

[hadoop@hadoop1 conf]$ vi slaves

圖1-7 設(shè)置Slave節(jié)點

(4)基于spark-env.sh.template文件復(fù)制一個新的文件,然后去掉擴(kuò)展名.template,文件名稱變?yōu)閟park-env.sh。

[hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh

(5)編輯spark-env.sh文件,設(shè)置Master節(jié)點,如圖1-8所示。

[hadoop@hadoop1 conf]$ vi spark-env.sh

圖1-8 設(shè)置Master節(jié)點

(6)設(shè)置JAVA_HOME,指向JDK安裝的目錄。

[hadoop@hadoop1 conf]$ vi /opt/module/spark/sbin/spark-config.sh

# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144

(7)在集群的其他服務(wù)器節(jié)點hadoop2和hadoop3中進(jìn)行相同的安裝,或者通過從已經(jīng)安裝好的節(jié)點遠(yuǎn)程復(fù)制文件的方式進(jìn)行安裝。

(8)啟動Spark集群的命令是安裝目錄的sbin下面的start-all.sh文件。因為這個文件名和Hadoop安裝目錄下的sbin同名,為了能夠保證在任意路徑下執(zhí)行啟動腳本而不沖突,可以將啟動腳本復(fù)制成另一個文件start-spark.sh。同樣,停止集群的腳本stop-all.sh也存在這種情況,可以將其復(fù)制成一個新的文件stop-spark.sh。

[hadoop@hadoop1 conf]$ cp /opt/module/spark/sbin/start-all.sh /opt/module/spark/sbin/start-spark.sh

[hadoop@hadoop1 conf]$ cp /opt/module/spark/sbin/stop-all.sh /opt/module/spark/sbin/stop-spark.sh

(9)啟動和停止Spark集群,如圖1-9所示。

[hadoop@hadoop1 conf]$ start-spark.sh

[hadoop@hadoop1 conf]$ stop-spark.sh

(10)通過Web UI查看集群。可以通過主機名或者IP地址進(jìn)行訪問。默認(rèn)端口號為8080,可以在瀏覽器中訪問http://hadoop1:8080,如圖1-10所示。

圖1-9 啟動和停止Spark集群

圖1-10 通過Web UI查看集群

2.Spark歷史服務(wù)配置

默認(rèn)情況下,由于Spark提交的任務(wù)不會被記錄到日志中,也就是說,向Spark集群提交的任務(wù)信息并不會保留,因此在企業(yè)級應(yīng)用中一般會開啟Spark歷史服務(wù)。配置Spark歷史服務(wù)的主要步驟如下。

(1)啟動Hadoop。在HDFS上創(chuàng)建Spark的事件日志目錄,目錄名稱可以任意設(shè)置。使用如下命令在HDFS上創(chuàng)建spark-eventlog目錄。

[hadoop@hadoop1 ~]$ hdfs dfs -mkdir /spark-eventlog

(2)修改Spark歷史日志,如圖1-11所示。

[hadoop@hadoop1 ~]$ vi /opt/module/spark/conf/spark-defaults.conf

圖1-11 Spark歷史日志設(shè)置

(3)修改spark-env.sh文件。Spark History的參數(shù)如表1-2所示。修改后的結(jié)果如圖1-12所示。修改完成后保存文件設(shè)置。

[hadoop@hadoop1 ~]$ vi /opt/module/spark/conf/spark-env.sh

表1-2 Spark History的參數(shù)

圖1-12 Spark歷史日志參數(shù)設(shè)置

主站蜘蛛池模板: 永济市| 尼木县| 南开区| 遵化市| 麻城市| 莱阳市| 郁南县| 黎城县| 黄山市| 浦县| 万州区| 江门市| 阿克| 宁安市| 莱芜市| 黄陵县| 叙永县| 绥棱县| 西乌| 荥阳市| 论坛| 宿州市| 江安县| 思茅市| 科技| 无锡市| 中山市| 丰原市| 大石桥市| 天长市| 开鲁县| 濉溪县| 石楼县| 嘉鱼县| 淅川县| 黄浦区| 临颍县| 偏关县| 怀化市| 龙口市| 博客|