pg比特淘金赢钱技巧教程

書名： Spark分布式處理實戰(zhàn)
作者名：劉均王璐烽主編
本章字?jǐn)?shù)： 947字
更新時間： 2023-10-09 15:51:59

【任務(wù)實施】

1．Spark獨立集群模式安裝

在本書所介紹的案例使用了由3臺服務(wù)器節(jié)點構(gòu)建的集群。集群的主機名、IP地址、服務(wù)器節(jié)點角色如表1-1所示。

表1-1 集群規(guī)劃

在本地模式安裝并正常運行的前提下，可以通過修改配置文件的方式和復(fù)制的方式將單個節(jié)點的安裝擴(kuò)展到多個節(jié)點，安裝時按照以下操作步驟進(jìn)行。

（1）查看配置文件。首先進(jìn)入安裝目錄的conf目錄。這個文件夾包含了配置文件，文件名稱擴(kuò)展為.template，可以直接去掉文件擴(kuò)展名進(jìn)行修改；也可以保留原始文件，復(fù)制一個新的文件，然后再去掉擴(kuò)展名.template，在新文件中修改內(nèi)容。

[hadoop@hadoop1 ~]$ cd /opt/module/spark/conf

[hadoop@hadoop1 conf]$ ls
fairscheduler.xml.template  log4j.properties.template metrics.properties.template slaves.template  
spark-defaults.conf.template  spark-env.sh.template

（2）基于slaves.template文件復(fù)制一個新的文件，然后去掉擴(kuò)展名.template，文件名稱變?yōu)閟laves。

[hadoop@hadoop1 conf]$ cp slaves.template slaves

（3）編輯slaves文件，在slaves文件中添加3臺服務(wù)器的主機名，如圖1-7所示。

[hadoop@hadoop1 conf]$ vi slaves

圖1-7　設(shè)置Slave節(jié)點

（4）基于spark-env.sh.template文件復(fù)制一個新的文件，然后去掉擴(kuò)展名.template，文件名稱變?yōu)閟park-env.sh。

[hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh

（5）編輯spark-env.sh文件，設(shè)置Master節(jié)點，如圖1-8所示。

[hadoop@hadoop1 conf]$ vi spark-env.sh

圖1-8　設(shè)置Master節(jié)點

（6）設(shè)置JAVA_HOME，指向JDK安裝的目錄。

[hadoop@hadoop1 conf]$ vi /opt/module/spark/sbin/spark-config.sh

# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144

（7）在集群的其他服務(wù)器節(jié)點hadoop2和hadoop3中進(jìn)行相同的安裝，或者通過從已經(jīng)安裝好的節(jié)點遠(yuǎn)程復(fù)制文件的方式進(jìn)行安裝。

（8）啟動Spark集群的命令是安裝目錄的sbin下面的start-all.sh文件。因為這個文件名和Hadoop安裝目錄下的sbin同名，為了能夠保證在任意路徑下執(zhí)行啟動腳本而不沖突，可以將啟動腳本復(fù)制成另一個文件start-spark.sh。同樣，停止集群的腳本stop-all.sh也存在這種情況，可以將其復(fù)制成一個新的文件stop-spark.sh。

[hadoop@hadoop1 conf]$ cp /opt/module/spark/sbin/start-all.sh /opt/module/spark/sbin/start-spark.sh

[hadoop@hadoop1 conf]$ cp /opt/module/spark/sbin/stop-all.sh /opt/module/spark/sbin/stop-spark.sh

（9）啟動和停止Spark集群，如圖1-9所示。

[hadoop@hadoop1 conf]$ start-spark.sh

[hadoop@hadoop1 conf]$ stop-spark.sh

（10）通過Web UI查看集群。可以通過主機名或者IP地址進(jìn)行訪問。默認(rèn)端口號為8080，可以在瀏覽器中訪問http://hadoop1:8080，如圖1-10所示。

圖1-9　啟動和停止Spark集群

圖1-10　通過Web UI查看集群

2．Spark歷史服務(wù)配置

默認(rèn)情況下，由于Spark提交的任務(wù)不會被記錄到日志中，也就是說，向Spark集群提交的任務(wù)信息并不會保留，因此在企業(yè)級應(yīng)用中一般會開啟Spark歷史服務(wù)。配置Spark歷史服務(wù)的主要步驟如下。

（1）啟動Hadoop。在HDFS上創(chuàng)建Spark的事件日志目錄，目錄名稱可以任意設(shè)置。使用如下命令在HDFS上創(chuàng)建spark-eventlog目錄。

[hadoop@hadoop1 ~]$ hdfs dfs -mkdir /spark-eventlog

（2）修改Spark歷史日志，如圖1-11所示。

[hadoop@hadoop1 ~]$ vi /opt/module/spark/conf/spark-defaults.conf

圖1-11　Spark歷史日志設(shè)置

（3）修改spark-env.sh文件。Spark History的參數(shù)如表1-2所示。修改后的結(jié)果如圖1-12所示。修改完成后保存文件設(shè)置。

[hadoop@hadoop1 ~]$ vi /opt/module/spark/conf/spark-env.sh

表1-2 Spark History的參數(shù)

圖1-12　Spark歷史日志參數(shù)設(shè)置

官术网_书友最值得收藏!

Spark分布式處理實戰(zhàn)

【任務(wù)實施】

1．Spark獨立集群模式安裝

2．Spark歷史服務(wù)配置