- Hadoop構(gòu)建數(shù)據(jù)倉庫實踐
- 王雪迎
- 1009字
- 2020-11-28 16:11:49
前言
似乎所有人嘴邊都掛著“大數(shù)據(jù)”這個詞。圍繞大數(shù)據(jù)這個主題開展的討論幾乎已經(jīng)完全壓倒了傳統(tǒng)數(shù)據(jù)倉庫的風頭。某些大數(shù)據(jù)狂熱者甚至大膽預(yù)測,在不久的將來,所有企業(yè)數(shù)據(jù)都將由一個基于Apache Hadoop的系統(tǒng)托管,企業(yè)數(shù)據(jù)倉庫(EDW)終將消亡。無論如何,傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)仍在不斷發(fā)展演化,這一點不容置疑。一年來,我一直在撰寫相關(guān)的文章和博客,但它真的會消亡嗎?我認為幾率很小。實際上,盡管所有人都在討論某種技術(shù)或者架構(gòu)可能會勝過另一種技術(shù)或架構(gòu),但IBM有著不同的觀點。在IBM,他們更傾向于從“Hadoop與數(shù)據(jù)倉庫密切結(jié)合”這個角度來探討問題,兩者可以說是天作之合。
試想一下,對于采用傳統(tǒng)數(shù)據(jù)倉庫的企業(yè)而言,大數(shù)據(jù)帶來的機會就是能夠利用過去無法通過傳統(tǒng)倉庫架構(gòu)利用的數(shù)據(jù),但傳統(tǒng)數(shù)據(jù)倉庫為什么不能承擔起這個責任?原因是多方面的。首先,數(shù)據(jù)倉庫的傳統(tǒng)架構(gòu)方式采用業(yè)務(wù)系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),用它們來分析有關(guān)業(yè)務(wù)的方方面面,對這些數(shù)據(jù)進行清理、建模、分布、治理和維護,以便執(zhí)行歷史分析。無論是從結(jié)構(gòu)方面考慮,還是從數(shù)據(jù)攝取速率方面考慮,我們在數(shù)據(jù)倉庫中存儲的數(shù)據(jù)都是可預(yù)測的。相比之下,大數(shù)據(jù)是不可預(yù)測的。大數(shù)據(jù)的結(jié)構(gòu)多種多樣,對于EDW來說數(shù)量過于龐大。尤其要考慮的是,我們更習慣于瀏覽大量數(shù)據(jù)來查找真正需要的信息。不久之后可能又會決定丟棄這些數(shù)據(jù),在某些情況下,這些數(shù)據(jù)的保存期限可能會更短。如果我們決定保留所有這些數(shù)據(jù),則需要使用比EDW更經(jīng)濟的解決方案來存儲非結(jié)構(gòu)化數(shù)據(jù),以便將來使用這些數(shù)據(jù)進行歷史分析,這也是將Hadoop與數(shù)據(jù)倉庫結(jié)合使用的另一個論據(jù)。
本書通過簡單而完整的示例,論述了在Hadoop平臺上設(shè)計和實現(xiàn)數(shù)據(jù)倉庫的方法。將傳統(tǒng)數(shù)據(jù)倉庫建模與SQL開發(fā)的簡單性與大數(shù)據(jù)技術(shù)相結(jié)合,快速、高效地建立可擴展的數(shù)據(jù)倉庫及其應(yīng)用系統(tǒng)。
本書共13章,主要內(nèi)容包括數(shù)據(jù)倉庫、Hadoop及其生態(tài)圈的相關(guān)概念,使用Sqoop從關(guān)系數(shù)據(jù)庫全量或增量抽取數(shù)據(jù),使用Hive進行數(shù)據(jù)轉(zhuǎn)換和裝載處理,使用Oozie調(diào)度作業(yè)周期性執(zhí)行,使用Impala進行快速聯(lián)機數(shù)據(jù)分析,使用Hue將數(shù)據(jù)可視化,以及數(shù)據(jù)倉庫中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。
本書適合數(shù)據(jù)庫管理員、大數(shù)據(jù)技術(shù)人員、Hadoop技術(shù)人員、數(shù)據(jù)倉庫技術(shù)人員,也適合高等院校和培訓學校相關(guān)專業(yè)的師生教學參考。
最后,感謝清華大學出版社圖格事業(yè)部的編輯們,他們的辛勤工作使得本書盡早與讀者見面。
編者
2017年6月
- 數(shù)據(jù)產(chǎn)品經(jīng)理高效學習手冊:產(chǎn)品設(shè)計、技術(shù)常識與機器學習
- Unity 5.x Game AI Programming Cookbook
- 數(shù)據(jù)之巔:數(shù)據(jù)的本質(zhì)與未來
- 圖解機器學習算法
- WS-BPEL 2.0 Beginner's Guide
- INSTANT Cytoscape Complex Network Analysis How-to
- 數(shù)據(jù)庫設(shè)計與應(yīng)用(SQL Server 2014)(第二版)
- Proxmox VE超融合集群實踐真?zhèn)?/a>
- 高維數(shù)據(jù)分析預(yù)處理技術(shù)
- Solaris操作系統(tǒng)原理實驗教程
- SAS金融數(shù)據(jù)挖掘與建模:系統(tǒng)方法與案例解析
- 從實踐中學習sqlmap數(shù)據(jù)庫注入測試
- Unity Game Development Blueprints
- 數(shù)據(jù)迷霧:洞察數(shù)據(jù)的價值與內(nèi)涵
- 數(shù)據(jù)庫技術(shù)與應(yīng)用:SQL Server 2008