- Hadoop大數據技術開發(fā)實戰(zhàn)
- 張偉洋
- 1116字
- 2020-03-06 11:48:30
前言
當今互聯網已進入大數據時代,大數據技術已廣泛應用于金融、醫(yī)療、教育、電信、政府等領域。各行各業(yè)每天都在產生大量的數據,數據計量單位已從B、KB、MB、GB、TB發(fā)展到PB、EB、ZB、YB甚至BB、NB、DB。預計未來幾年,全球數據將呈爆炸式增長。谷歌、阿里巴巴、百度、京東等互聯網公司都急需掌握大數據技術的人才,而大數據相關人才卻出現了供不應求的狀況。
Hadoop作為大數據生態(tài)系統中的核心框架,專為離線和大規(guī)模數據處理而設計。Hadoop的核心組成HDFS為海量數據提供了分布式存儲;MapReduce則為海量數據提供了分布式計算。很多互聯網公司都使用Hadoop來實現公司的核心業(yè)務,例如華為的云計算平臺、淘寶的推薦系統等,只要和海量數據相關的領域都有Hadoop的身影。
本書作為Hadoop及其周邊框架的入門書,知識面比較廣,涵蓋了當前整個Hadoop生態(tài)系統主流的大數據開發(fā)技術。內容全面,代碼可讀性強,以實操為主,理論為輔,一步一步手把手對常用的離線計算以及實時計算等系統進行了深入講解。
全書共16章,第1章講解了VMware中CentOS 7操作系統的安裝;第2章講解了大數據開發(fā)之前對操作系統集群環(huán)境的配置;第3~16章講解了Hadoop生態(tài)系統各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和數據實時處理系統Flume、Kafka、Storm、Spark以及分布式搜索系統Elasticsearch等的基礎知識、架構原理、集群環(huán)境搭建,同時包括常用的Shell命令、API操作、源碼剖析,并通過實際案例加深對各個框架的理解與應用。
那么如何學習本書呢?
本書推薦的閱讀方式是按照章節(jié)順序從頭到尾完成閱讀,因為后面的很多章節(jié)是以前面的章節(jié)為基礎,而且這種一步一個腳印、由淺入深的方式將使你更加順利地掌握大數據的開發(fā)技能。
學習本書時,首先根據第1、2章搭建好開發(fā)環(huán)境,然后依次學習第3~16章,學習每一章時先了解該章的基礎知識和框架的架構原理,然后再進行集群環(huán)境搭建、Shell命令操作等實操練習,這樣學習效果會更好。當書中的理論和實操知識都掌握后,可以進行舉一反三,自己開發(fā)一個大數據程序,或者將所學知識運用到自己的編程項目上,也可以到各種在線論壇與其他大數據愛好者進行討論,互幫互助。
本書可作為Hadoop新手入門的指導書籍或者大數據開發(fā)人員的參考用書,要求讀者具備一定的Java語言基礎和Linux系統基礎,即使沒有任何大數據基礎的讀者,也可以對照書中的步驟成功搭建屬于自己的大數據集群,是一本真正的提高讀者動手能力、以實操為主的入門書籍。通過對本書的學習,讀者能夠對大數據相關框架迅速理解并掌握,可以熟練使用Hadoop集成環(huán)境進行大數據項目的開發(fā)。
讀者若對書中講解的知識有任何疑問,可關注下面的公眾號聯系筆者,還可以在該公眾號中獲取大數據相關的學習教程和資源。

掃描下述二維碼可以下載本書源代碼:

由于時間原因,書中難免出現一些錯誤或不準確的地方,懇請讀者批評指正。
張偉洋
2019年5月于青島
- 數據存儲架構與技術
- GitHub Essentials
- Building Computer Vision Projects with OpenCV 4 and C++
- 數據分析實戰(zhàn):基于EXCEL和SPSS系列工具的實踐
- Access 2007數據庫應用上機指導與練習
- 商業(yè)分析思維與實踐:用數據分析解決商業(yè)問題
- 數據庫與數據處理:Access 2010實現
- 云計算寶典:技術與實踐
- MySQL數據庫應用與管理
- 數據挖掘與數據化運營實戰(zhàn):思路、方法、技巧與應用
- 實用預測分析
- Mastering Java for Data Science
- Hands-On Java Deep Learning for Computer Vision
- Hive性能調優(yōu)實戰(zhàn)
- 實用數據結構基礎(第四版)