- Hadoop構(gòu)建數(shù)據(jù)倉庫實踐
- 王雪迎
- 263字
- 2020-11-28 16:11:57
第5章 Kettle與Hadoop
上一章詳細(xì)介紹了Apache Hadoop和CDH的安裝,這為我們開啟Hadoop上的數(shù)據(jù)倉庫之旅做好了準(zhǔn)備。在一個數(shù)據(jù)倉庫項目中,開發(fā)階段最關(guān)鍵的是ETL過程。大致有三種ETL的實現(xiàn)途徑:使用ETL工具、使用特定數(shù)據(jù)庫的SQL、使用程序語言開發(fā)自己的ETL應(yīng)用。本章介紹第一種方式。我們將使用Kettle這款最流行的ETL工具操作Hadoop上的數(shù)據(jù)。
首先概要介紹Kettle對大數(shù)據(jù)的支持,然后用示例說明Kettle如何連接Hadoop,如何導(dǎo)入導(dǎo)出Hadoop集群上的數(shù)據(jù),如何用Kettle執(zhí)行Hive的HiveQL語句(HiveQL將在6.2節(jié)作簡要介紹),還會用一個典型的MapReduce轉(zhuǎn)換,說明Kettle在實際應(yīng)用中是怎樣利用Hadoop分布式計算框架的。本章最后介紹如何在Kettle中提交Spark作業(yè)。
推薦閱讀
- 數(shù)據(jù)存儲架構(gòu)與技術(shù)
- 公有云容器化指南:騰訊云TKE實戰(zhàn)與應(yīng)用
- 企業(yè)數(shù)字化創(chuàng)新引擎:企業(yè)級PaaS平臺HZERO
- 數(shù)據(jù)庫原理及應(yīng)用教程(第4版)(微課版)
- Ceph源碼分析
- Python金融實戰(zhàn)
- 數(shù)據(jù)庫原理與設(shè)計(第2版)
- 大數(shù)據(jù)治理與安全:從理論到開源實踐
- 編寫有效用例
- Unity 2018 By Example(Second Edition)
- 計算機視覺
- Internet of Things with Python
- 數(shù)據(jù)中心經(jīng)營之道
- 從Lucene到Elasticsearch:全文檢索實戰(zhàn)
- 數(shù)據(jù)庫原理及應(yīng)用實驗:基于GaussDB的實現(xiàn)方法