書名： Hadoop構建數據倉庫實踐
作者名：王雪迎
本章字數： 324字
更新時間： 2020-11-28 16:11:53

第3章 Hadoop生態圈與數據倉庫

本章介紹Hadoop及其生態圈中的組件，并討論基于Hadoop構建數據倉庫的必要性和可行性。隨著云計算、大數據等名詞的流行，涌現出一大批相關的技術，其中Hadoop是較早出現的一種分布式架構，得到了大量的應用。本章先說明大數據和Hadoop的基本概念，之后介紹HDFS、MapReduce、YARN三個基本的Hadoop組件。除了基本組成部分，Hadoop生態圈中還有很多其他的工具組件，它們可以提供創建數據倉庫所需的大部分功能，后面章節將會陸續講述這些組件的概念和功能。本章主要介紹Spark分布式計算框架。在本章最后，討論數據倉庫與分布式計算的關系，以及與傳統數據倉庫架構所對應的Hadoop工具。

希望讀者通過閱讀本章的內容，對大數據、分布式計算、Hadoop及其生態圈的概念有一個基本的認識，最重要的是理解為什么要使用Hadoop建立數據倉庫。

官术网_书友最值得收藏!

Hadoop構建數據倉庫實踐

第3章 Hadoop生態圈與數據倉庫