官术网_书友最值得收藏!

第3章 Hadoop生態圈與數據倉庫

本章介紹Hadoop及其生態圈中的組件,并討論基于Hadoop構建數據倉庫的必要性和可行性。隨著云計算、大數據等名詞的流行,涌現出一大批相關的技術,其中Hadoop是較早出現的一種分布式架構,得到了大量的應用。本章先說明大數據和Hadoop的基本概念,之后介紹HDFS、MapReduce、YARN三個基本的Hadoop組件。除了基本組成部分,Hadoop生態圈中還有很多其他的工具組件,它們可以提供創建數據倉庫所需的大部分功能,后面章節將會陸續講述這些組件的概念和功能。本章主要介紹Spark分布式計算框架。在本章最后,討論數據倉庫與分布式計算的關系,以及與傳統數據倉庫架構所對應的Hadoop工具。

希望讀者通過閱讀本章的內容,對大數據、分布式計算、Hadoop及其生態圈的概念有一個基本的認識,最重要的是理解為什么要使用Hadoop建立數據倉庫。

主站蜘蛛池模板: 年辖:市辖区| 华宁县| 舞钢市| 沽源县| 和林格尔县| 兰西县| 兴化市| 宣武区| 霍州市| 苗栗县| 河北省| 杭锦旗| 长白| 天镇县| 琼海市| 平潭县| 搜索| 新闻| 佳木斯市| 云和县| 吉水县| 伊金霍洛旗| 海南省| 衡水市| 宁津县| 高唐县| 安阳市| 绥棱县| 古蔺县| 封开县| 靖州| 涿州市| 吴忠市| 安康市| 萝北县| 涡阳县| 大关县| 灯塔市| 南通市| 改则县| 庆云县|