官术网_书友最值得收藏!

前言

似乎所有人嘴邊都掛著“大數(shù)據(jù)”這個詞。圍繞大數(shù)據(jù)這個主題開展的討論幾乎已經(jīng)完全壓倒了傳統(tǒng)數(shù)據(jù)倉庫的風頭。某些大數(shù)據(jù)狂熱者甚至大膽預(yù)測,在不久的將來,所有企業(yè)數(shù)據(jù)都將由一個基于Apache Hadoop的系統(tǒng)托管,企業(yè)數(shù)據(jù)倉庫(EDW)終將消亡。無論如何,傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)仍在不斷發(fā)展演化,這一點不容置疑。一年來,我一直在撰寫相關(guān)的文章和博客,但它真的會消亡嗎?我認為幾率很小。實際上,盡管所有人都在討論某種技術(shù)或者架構(gòu)可能會勝過另一種技術(shù)或架構(gòu),但IBM有著不同的觀點。在IBM,他們更傾向于從“Hadoop與數(shù)據(jù)倉庫密切結(jié)合”這個角度來探討問題,兩者可以說是天作之合。

試想一下,對于采用傳統(tǒng)數(shù)據(jù)倉庫的企業(yè)而言,大數(shù)據(jù)帶來的機會就是能夠利用過去無法通過傳統(tǒng)倉庫架構(gòu)利用的數(shù)據(jù),但傳統(tǒng)數(shù)據(jù)倉庫為什么不能承擔起這個責任?原因是多方面的。首先,數(shù)據(jù)倉庫的傳統(tǒng)架構(gòu)方式采用業(yè)務(wù)系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),用它們來分析有關(guān)業(yè)務(wù)的方方面面,對這些數(shù)據(jù)進行清理、建模、分布、治理和維護,以便執(zhí)行歷史分析。無論是從結(jié)構(gòu)方面考慮,還是從數(shù)據(jù)攝取速率方面考慮,我們在數(shù)據(jù)倉庫中存儲的數(shù)據(jù)都是可預(yù)測的。相比之下,大數(shù)據(jù)是不可預(yù)測的。大數(shù)據(jù)的結(jié)構(gòu)多種多樣,對于EDW來說數(shù)量過于龐大。尤其要考慮的是,我們更習慣于瀏覽大量數(shù)據(jù)來查找真正需要的信息。不久之后可能又會決定丟棄這些數(shù)據(jù),在某些情況下,這些數(shù)據(jù)的保存期限可能會更短。如果我們決定保留所有這些數(shù)據(jù),則需要使用比EDW更經(jīng)濟的解決方案來存儲非結(jié)構(gòu)化數(shù)據(jù),以便將來使用這些數(shù)據(jù)進行歷史分析,這也是將Hadoop與數(shù)據(jù)倉庫結(jié)合使用的另一個論據(jù)。

本書通過簡單而完整的示例,論述了在Hadoop平臺上設(shè)計和實現(xiàn)數(shù)據(jù)倉庫的方法。將傳統(tǒng)數(shù)據(jù)倉庫建模與SQL開發(fā)的簡單性與大數(shù)據(jù)技術(shù)相結(jié)合,快速、高效地建立可擴展的數(shù)據(jù)倉庫及其應(yīng)用系統(tǒng)。

本書共13章,主要內(nèi)容包括數(shù)據(jù)倉庫、Hadoop及其生態(tài)圈的相關(guān)概念,使用Sqoop從關(guān)系數(shù)據(jù)庫全量或增量抽取數(shù)據(jù),使用Hive進行數(shù)據(jù)轉(zhuǎn)換和裝載處理,使用Oozie調(diào)度作業(yè)周期性執(zhí)行,使用Impala進行快速聯(lián)機數(shù)據(jù)分析,使用Hue將數(shù)據(jù)可視化,以及數(shù)據(jù)倉庫中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。

本書適合數(shù)據(jù)庫管理員、大數(shù)據(jù)技術(shù)人員、Hadoop技術(shù)人員、數(shù)據(jù)倉庫技術(shù)人員,也適合高等院校和培訓學校相關(guān)專業(yè)的師生教學參考。

最后,感謝清華大學出版社圖格事業(yè)部的編輯們,他們的辛勤工作使得本書盡早與讀者見面。

編者

2017年6月

主站蜘蛛池模板: 师宗县| 呼和浩特市| 遵义市| 贵港市| 宁乡县| 永昌县| 理塘县| 丹东市| 资溪县| 西充县| 宜君县| 溧水县| 嘉兴市| 扎兰屯市| 梓潼县| 息烽县| 新化县| 邛崃市| 嵩明县| 托里县| 阿坝县| 长兴县| 龙陵县| 乌审旗| 明溪县| 乾安县| 洛扎县| 开原市| 澎湖县| 苍溪县| 奉贤区| 车致| 余干县| 禄丰县| 双柏县| 区。| 昌乐县| 芮城县| 滕州市| 三台县| 黄陵县|