書名： Hadoop+Spark大數據分析實戰
作者名：遲殿委編著
本章字數： 393字
更新時間： 2023-09-08 19:24:06

第2章
Hadoop偽分布式集群

本章主要內容：

●　安裝獨立運行的Hadoop。

●　Hadoop偽分布式的安裝與配置。

●　HDFS的命令。

●　Java操作HDFS。

Hadoop的運行方式可以分為3種：

●　獨立運行的Hadoop。不提供HDFS存儲服務，也不需要啟動任何的后臺守護進程，但可以直接在本地運行MapReduce程序，并將輸出結果保存到本地磁盤上。

●　偽分布式運行的Hadoop。一般是指只有一臺服務器的Hadoop運行環境，需要啟動NameNode（主節點存儲服務）、SecondaryNameNode（主節點日志數據備份服務）可提供HDFS存儲服務。啟動守護進程ResourceManager和NodeManager，運行MapReduce程序并將結果輸出到HDFS上。

●　集群運行的Hadoop。可用于生產環境的高可靠集群。借助ZooKeeper實現宕機容災和自動切換。

為了快速上手，我們會運行一個獨立的MapReduce。獨立運行的MapReduce可讀取本地文本文件，然后將輸出的數據保存到本地磁盤上。

注意：本書后面的環境，都使用CentOS7、JDK1.8_x64和Hadoop 3.2.2作為基礎環境。本節搭建的偽分布式集群（實際上是單臺虛擬機）所用的服務器及相關配置，可以用于第2章到第12章所有涉及的偽分布式操作環境。

官术网_书友最值得收藏!

Hadoop+Spark大數據分析實戰

第2章 Hadoop偽分布式集群

第2章
Hadoop偽分布式集群