- Hadoop+Spark大數據分析實戰
- 遲殿委編著
- 393字
- 2023-09-08 19:24:06
第2章
Hadoop偽分布式集群
本章主要內容:
● 安裝獨立運行的Hadoop。
● Hadoop偽分布式的安裝與配置。
● HDFS的命令。
● Java操作HDFS。
Hadoop的運行方式可以分為3種:
● 獨立運行的Hadoop。不提供HDFS存儲服務,也不需要啟動任何的后臺守護進程,但可以直接在本地運行MapReduce程序,并將輸出結果保存到本地磁盤上。
● 偽分布式運行的Hadoop。一般是指只有一臺服務器的Hadoop運行環境,需要啟動NameNode(主節點存儲服務)、SecondaryNameNode(主節點日志數據備份服務)可提供HDFS存儲服務。啟動守護進程ResourceManager和NodeManager,運行MapReduce程序并將結果輸出到HDFS上。
● 集群運行的Hadoop。可用于生產環境的高可靠集群。借助ZooKeeper實現宕機容災和自動切換。
為了快速上手,我們會運行一個獨立的MapReduce。獨立運行的MapReduce可讀取本地文本文件,然后將輸出的數據保存到本地磁盤上。
注意:本書后面的環境,都使用CentOS7、JDK1.8_x64和Hadoop 3.2.2作為基礎環境。本節搭建的偽分布式集群(實際上是單臺虛擬機)所用的服務器及相關配置,可以用于第2章到第12章所有涉及的偽分布式操作環境。
推薦閱讀
- 大學計算機基礎實驗教程
- Photoshop智能手機APP UI設計之道
- Practical Data Science Cookbook(Second Edition)
- Learning Elixir
- Python金融數據分析
- 數據結構(C語言)
- 編寫高質量代碼:改善Objective-C程序的61個建議
- HoloLens與混合現實開發
- Android群英傳
- RubyMotion iOS Develoment Essentials
- C#程序設計基礎入門教程
- Professional JavaScript
- Building Web and Mobile ArcGIS Server Applications with JavaScript(Second Edition)
- 虛擬現實:引領未來的人機交互革命
- ASP.NET Core 2 High Performance(Second Edition)