書名： Hadoop構(gòu)建數(shù)據(jù)倉庫實踐
作者名：王雪迎
本章字數(shù)： 1009字
更新時間： 2020-11-28 16:11:49

前言

似乎所有人嘴邊都掛著“大數(shù)據(jù)”這個詞。圍繞大數(shù)據(jù)這個主題開展的討論幾乎已經(jīng)完全壓倒了傳統(tǒng)數(shù)據(jù)倉庫的風頭。某些大數(shù)據(jù)狂熱者甚至大膽預(yù)測，在不久的將來，所有企業(yè)數(shù)據(jù)都將由一個基于Apache Hadoop的系統(tǒng)托管，企業(yè)數(shù)據(jù)倉庫（EDW）終將消亡。無論如何，傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)仍在不斷發(fā)展演化，這一點不容置疑。一年來，我一直在撰寫相關(guān)的文章和博客，但它真的會消亡嗎？我認為幾率很小。實際上，盡管所有人都在討論某種技術(shù)或者架構(gòu)可能會勝過另一種技術(shù)或架構(gòu)，但IBM有著不同的觀點。在IBM，他們更傾向于從“Hadoop與數(shù)據(jù)倉庫密切結(jié)合”這個角度來探討問題，兩者可以說是天作之合。

試想一下，對于采用傳統(tǒng)數(shù)據(jù)倉庫的企業(yè)而言，大數(shù)據(jù)帶來的機會就是能夠利用過去無法通過傳統(tǒng)倉庫架構(gòu)利用的數(shù)據(jù)，但傳統(tǒng)數(shù)據(jù)倉庫為什么不能承擔起這個責任？原因是多方面的。首先，數(shù)據(jù)倉庫的傳統(tǒng)架構(gòu)方式采用業(yè)務(wù)系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)，用它們來分析有關(guān)業(yè)務(wù)的方方面面，對這些數(shù)據(jù)進行清理、建模、分布、治理和維護，以便執(zhí)行歷史分析。無論是從結(jié)構(gòu)方面考慮，還是從數(shù)據(jù)攝取速率方面考慮，我們在數(shù)據(jù)倉庫中存儲的數(shù)據(jù)都是可預(yù)測的。相比之下，大數(shù)據(jù)是不可預(yù)測的。大數(shù)據(jù)的結(jié)構(gòu)多種多樣，對于EDW來說數(shù)量過于龐大。尤其要考慮的是，我們更習慣于瀏覽大量數(shù)據(jù)來查找真正需要的信息。不久之后可能又會決定丟棄這些數(shù)據(jù)，在某些情況下，這些數(shù)據(jù)的保存期限可能會更短。如果我們決定保留所有這些數(shù)據(jù)，則需要使用比EDW更經(jīng)濟的解決方案來存儲非結(jié)構(gòu)化數(shù)據(jù)，以便將來使用這些數(shù)據(jù)進行歷史分析，這也是將Hadoop與數(shù)據(jù)倉庫結(jié)合使用的另一個論據(jù)。

本書通過簡單而完整的示例，論述了在Hadoop平臺上設(shè)計和實現(xiàn)數(shù)據(jù)倉庫的方法。將傳統(tǒng)數(shù)據(jù)倉庫建模與SQL開發(fā)的簡單性與大數(shù)據(jù)技術(shù)相結(jié)合，快速、高效地建立可擴展的數(shù)據(jù)倉庫及其應(yīng)用系統(tǒng)。

本書共13章，主要內(nèi)容包括數(shù)據(jù)倉庫、Hadoop及其生態(tài)圈的相關(guān)概念，使用Sqoop從關(guān)系數(shù)據(jù)庫全量或增量抽取數(shù)據(jù)，使用Hive進行數(shù)據(jù)轉(zhuǎn)換和裝載處理，使用Oozie調(diào)度作業(yè)周期性執(zhí)行，使用Impala進行快速聯(lián)機數(shù)據(jù)分析，使用Hue將數(shù)據(jù)可視化，以及數(shù)據(jù)倉庫中的漸變維（SCD）、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。

本書適合數(shù)據(jù)庫管理員、大數(shù)據(jù)技術(shù)人員、Hadoop技術(shù)人員、數(shù)據(jù)倉庫技術(shù)人員，也適合高等院校和培訓學校相關(guān)專業(yè)的師生教學參考。

最后，感謝清華大學出版社圖格事業(yè)部的編輯們，他們的辛勤工作使得本書盡早與讀者見面。

編者

2017年6月

官术网_书友最值得收藏!

Hadoop構(gòu)建數(shù)據(jù)倉庫實踐

前言