Hadoop+Spark大數據分析實戰
本書是Hadoop+Spark大數據分析技術入門書,基于Hadoop和Spark兩大框架體系的3.2版本,以通俗易懂的方式介紹Hadoop+Spark原生態組件的原理、集群搭建、實戰操作,以及整個Hadoop生態系統主流的大數據分析技術。本書共分14章。第1章講解Hadoop框架及新版本特性,并詳細講解大數據分析環境的搭建工作,包括Linux操作系統的安裝、SSH工具使用和配置等;第2章講解Hadoop偽分布式的安裝和開發體驗,使讀者熟悉Hadoop大數據開發兩大核心組件,即HDFS和MapReduce;第3~12章講解Hadoop生態系統各框架HDFS、MapReduce、輸入輸出、Hadoop集群配置、高可用集群、HBase、Hive、數據實時處理系統Flume,以及Spark框架數據處理、機器學習等實戰技術,并通過實際案例加深對各個框架的理解與應用;第13~14章分別通過影評分析、旅游酒店評價分析實戰項目來貫穿大數據分析的完整流程。
·10.6萬字