書名： Hadoop 3.x大數據開發實戰
作者名：張偉洋
本章字數： 1155字
更新時間： 2023-07-17 19:28:21

前言

當今互聯網已進入大數據時代，大數據技術已廣泛應用于金融、醫療、教育、電信、政府等領域。各行各業每天都在產生大量的數據，數據計量單位已從B、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB。預計未來幾年，全球數據將呈爆炸式增長。谷歌、阿里巴巴、百度、京東等互聯網公司都急需掌握大數據技術的人才，而大數據相關人才卻出現了供不應求的狀況。

Hadoop作為大數據生態系統中的核心框架，專為離線和大規模數據處理而設計。Hadoop的核心組成HDFS為海量數據提供了分布式存儲；MapReduce則為海量數據提供了分布式計算。很多互聯網公司都使用Hadoop來實現公司的核心業務，例如華為的云計算平臺、淘寶的推薦系統等，只要和海量數據相關的領域都有Hadoop的身影。

本書作為Hadoop 3.x及其周邊框架的入門書，知識面比較廣，涵蓋了當前整個Hadoop 3.x生態系統主流的大數據開發技術。內容全面，代碼可讀性強，以實操為主，理論為輔，一步一步手把手對常用的離線計算以及實時計算等系統進行了深入講解。

全書共16章，第1章講解VMware中CentOS 7操作系統的安裝；第2章講解大數據開發之前對操作系統集群環境的配置；第3~16章講解Hadoop 3.x生態系統各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和數據實時處理系統Flume、Kafka、Storm、Spark以及分布式搜索系統Elasticsearch等的基礎知識、架構原理、集群環境搭建，同時包括常用的Shell命令、API操作、源碼剖析，并通過實際案例加深對各個框架的理解與應用。

本書推薦的閱讀方式是按照章節順序從頭到尾完成閱讀，因為后面的很多章節是以前面的章節為基礎，而且這種一步一個腳印、由淺入深的方式將使你更加順利地掌握大數據的開發技能。

學習本書時，首先根據第1、2章搭建好開發環境，然后依次學習第3~16章，學習每一章時先了解該章的基礎知識和框架的架構原理，然后再進行集群環境搭建、Shell命令操作等實操練習，這樣學習效果會更好。當書中的理論和實操知識都掌握后，可以進行舉一反三，自己開發一個大數據程序，或者將所學知識運用到自己的編程項目上，也可以到各種在線論壇與其他大數據愛好者進行討論，互幫互助。

本書可作為Hadoop 3.x新手入門的指導書籍或者大數據開發人員的參考用書，要求讀者具備一定的Java語言基礎和Linux系統基礎，即使沒有任何大數據基礎的讀者，也可以對照書中的步驟成功搭建屬于自己的大數據集群，是一本真正的提高讀者動手能力、以實操為主的入門書籍。通過對本書的學習，讀者能夠對大數據相關框架迅速理解并掌握，可以熟練使用Hadoop 3.x集成環境進行大數據項目的開發。

為方便讀者學習本書，本書提供了豐富的配套資源，包括PPT課件、源代碼和教學視頻。

可以掃碼下述二維碼下載PPT課件和源代碼，如果下載有問題，請發送郵件到booksaga@126.com，郵件主題為“Hadoop 3.x大數據開發實戰（視頻教學版）”。

本書的教學視頻，讀者可掃描各章節二維碼即可直接觀看。

限于水平和時間緊迫，書中難免出現一些錯誤或不準確的地方，懇請讀者批評指正。

2022.4.20

張偉洋

官术网_书友最值得收藏!

Hadoop 3.x大數據開發實戰

前言