書名： Hadoop構(gòu)建數(shù)據(jù)倉庫實踐
作者名：王雪迎
本章字?jǐn)?shù)： 263字
更新時間： 2020-11-28 16:11:57

第5章 Kettle與Hadoop

上一章詳細(xì)介紹了Apache Hadoop和CDH的安裝，這為我們開啟Hadoop上的數(shù)據(jù)倉庫之旅做好了準(zhǔn)備。在一個數(shù)據(jù)倉庫項目中，開發(fā)階段最關(guān)鍵的是ETL過程。大致有三種ETL的實現(xiàn)途徑：使用ETL工具、使用特定數(shù)據(jù)庫的SQL、使用程序語言開發(fā)自己的ETL應(yīng)用。本章介紹第一種方式。我們將使用Kettle這款最流行的ETL工具操作Hadoop上的數(shù)據(jù)。

首先概要介紹Kettle對大數(shù)據(jù)的支持，然后用示例說明Kettle如何連接Hadoop，如何導(dǎo)入導(dǎo)出Hadoop集群上的數(shù)據(jù)，如何用Kettle執(zhí)行Hive的HiveQL語句（HiveQL將在6.2節(jié)作簡要介紹），還會用一個典型的MapReduce轉(zhuǎn)換，說明Kettle在實際應(yīng)用中是怎樣利用Hadoop分布式計算框架的。本章最后介紹如何在Kettle中提交Spark作業(yè)。

官术网_书友最值得收藏!

Hadoop構(gòu)建數(shù)據(jù)倉庫實踐

第5章 Kettle與Hadoop