- Spark分布式處理實戰(zhàn)
- 劉均 王璐烽主編
- 947字
- 2023-10-09 15:51:59
【任務(wù)實施】
1.Spark獨立集群模式安裝
在本書所介紹的案例使用了由3臺服務(wù)器節(jié)點構(gòu)建的集群。集群的主機名、IP地址、服務(wù)器節(jié)點角色如表1-1所示。
表1-1 集群規(guī)劃

在本地模式安裝并正常運行的前提下,可以通過修改配置文件的方式和復(fù)制的方式將單個節(jié)點的安裝擴(kuò)展到多個節(jié)點,安裝時按照以下操作步驟進(jìn)行。
(1)查看配置文件。首先進(jìn)入安裝目錄的conf目錄。這個文件夾包含了配置文件,文件名稱擴(kuò)展為.template,可以直接去掉文件擴(kuò)展名進(jìn)行修改;也可以保留原始文件,復(fù)制一個新的文件,然后再去掉擴(kuò)展名.template,在新文件中修改內(nèi)容。
[hadoop@hadoop1 ~]$ cd /opt/module/spark/conf
[hadoop@hadoop1 conf]$ ls
fairscheduler.xml.template log4j.properties.template metrics.properties.template slaves.template
spark-defaults.conf.template spark-env.sh.template
(2)基于slaves.template文件復(fù)制一個新的文件,然后去掉擴(kuò)展名.template,文件名稱變?yōu)閟laves。
[hadoop@hadoop1 conf]$ cp slaves.template slaves
(3)編輯slaves文件,在slaves文件中添加3臺服務(wù)器的主機名,如圖1-7所示。
[hadoop@hadoop1 conf]$ vi slaves

圖1-7 設(shè)置Slave節(jié)點
(4)基于spark-env.sh.template文件復(fù)制一個新的文件,然后去掉擴(kuò)展名.template,文件名稱變?yōu)閟park-env.sh。
[hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh
(5)編輯spark-env.sh文件,設(shè)置Master節(jié)點,如圖1-8所示。
[hadoop@hadoop1 conf]$ vi spark-env.sh

圖1-8 設(shè)置Master節(jié)點
(6)設(shè)置JAVA_HOME,指向JDK安裝的目錄。
[hadoop@hadoop1 conf]$ vi /opt/module/spark/sbin/spark-config.sh
# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
(7)在集群的其他服務(wù)器節(jié)點hadoop2和hadoop3中進(jìn)行相同的安裝,或者通過從已經(jīng)安裝好的節(jié)點遠(yuǎn)程復(fù)制文件的方式進(jìn)行安裝。
(8)啟動Spark集群的命令是安裝目錄的sbin下面的start-all.sh文件。因為這個文件名和Hadoop安裝目錄下的sbin同名,為了能夠保證在任意路徑下執(zhí)行啟動腳本而不沖突,可以將啟動腳本復(fù)制成另一個文件start-spark.sh。同樣,停止集群的腳本stop-all.sh也存在這種情況,可以將其復(fù)制成一個新的文件stop-spark.sh。
[hadoop@hadoop1 conf]$ cp /opt/module/spark/sbin/start-all.sh /opt/module/spark/sbin/start-spark.sh
[hadoop@hadoop1 conf]$ cp /opt/module/spark/sbin/stop-all.sh /opt/module/spark/sbin/stop-spark.sh
(9)啟動和停止Spark集群,如圖1-9所示。
[hadoop@hadoop1 conf]$ start-spark.sh
[hadoop@hadoop1 conf]$ stop-spark.sh
(10)通過Web UI查看集群。可以通過主機名或者IP地址進(jìn)行訪問。默認(rèn)端口號為8080,可以在瀏覽器中訪問http://hadoop1:8080,如圖1-10所示。

圖1-9 啟動和停止Spark集群

圖1-10 通過Web UI查看集群
2.Spark歷史服務(wù)配置
默認(rèn)情況下,由于Spark提交的任務(wù)不會被記錄到日志中,也就是說,向Spark集群提交的任務(wù)信息并不會保留,因此在企業(yè)級應(yīng)用中一般會開啟Spark歷史服務(wù)。配置Spark歷史服務(wù)的主要步驟如下。
(1)啟動Hadoop。在HDFS上創(chuàng)建Spark的事件日志目錄,目錄名稱可以任意設(shè)置。使用如下命令在HDFS上創(chuàng)建spark-eventlog目錄。
[hadoop@hadoop1 ~]$ hdfs dfs -mkdir /spark-eventlog
(2)修改Spark歷史日志,如圖1-11所示。
[hadoop@hadoop1 ~]$ vi /opt/module/spark/conf/spark-defaults.conf

圖1-11 Spark歷史日志設(shè)置
(3)修改spark-env.sh文件。Spark History的參數(shù)如表1-2所示。修改后的結(jié)果如圖1-12所示。修改完成后保存文件設(shè)置。
[hadoop@hadoop1 ~]$ vi /opt/module/spark/conf/spark-env.sh
表1-2 Spark History的參數(shù)


圖1-12 Spark歷史日志參數(shù)設(shè)置
- Access 2016數(shù)據(jù)庫教程(微課版·第2版)
- 虛擬化與云計算
- Spark大數(shù)據(jù)分析實戰(zhàn)
- 云計算服務(wù)保障體系
- 揭秘云計算與大數(shù)據(jù)
- WS-BPEL 2.0 Beginner's Guide
- 數(shù)字媒體交互設(shè)計(初級):Web產(chǎn)品交互設(shè)計方法與案例
- 基于OPAC日志的高校圖書館用戶信息需求與檢索行為研究
- 科研統(tǒng)計思維與方法:SPSS實戰(zhàn)
- 聯(lián)動Oracle:設(shè)計思想、架構(gòu)實現(xiàn)與AWR報告
- Unity 2018 By Example(Second Edition)
- 數(shù)據(jù)指標(biāo)體系:構(gòu)建方法與應(yīng)用實踐
- 算法設(shè)計與分析
- SQL Server 2008寶典(第2版)
- 離線和實時大數(shù)據(jù)開發(fā)實戰(zhàn)