- Hadoop構建數據倉庫實踐
- 王雪迎
- 324字
- 2020-11-28 16:11:53
第3章 Hadoop生態圈與數據倉庫
本章介紹Hadoop及其生態圈中的組件,并討論基于Hadoop構建數據倉庫的必要性和可行性。隨著云計算、大數據等名詞的流行,涌現出一大批相關的技術,其中Hadoop是較早出現的一種分布式架構,得到了大量的應用。本章先說明大數據和Hadoop的基本概念,之后介紹HDFS、MapReduce、YARN三個基本的Hadoop組件。除了基本組成部分,Hadoop生態圈中還有很多其他的工具組件,它們可以提供創建數據倉庫所需的大部分功能,后面章節將會陸續講述這些組件的概念和功能。本章主要介紹Spark分布式計算框架。在本章最后,討論數據倉庫與分布式計算的關系,以及與傳統數據倉庫架構所對應的Hadoop工具。
希望讀者通過閱讀本章的內容,對大數據、分布式計算、Hadoop及其生態圈的概念有一個基本的認識,最重要的是理解為什么要使用Hadoop建立數據倉庫。
推薦閱讀
- 企業數字化創新引擎:企業級PaaS平臺HZERO
- 數據庫技術與應用教程(Access)
- Live Longer with AI
- 數據要素五論:信息、權屬、價值、安全、交易
- 3D計算機視覺:原理、算法及應用
- 數據驅動:從方法到實踐
- Python金融實戰
- Proxmox VE超融合集群實踐真傳
- 數據中心數字孿生應用實踐
- INSTANT Apple iBooks How-to
- Mastering LOB Development for Silverlight 5:A Case Study in Action
- 區域云計算和大數據產業發展:浙江樣板
- 大數據數學基礎(Python語言描述)
- 從實踐中學習sqlmap數據庫注入測試
- 數據庫應用系統技術