官术网_书友最值得收藏!

第5章 Kettle與Hadoop

上一章詳細(xì)介紹了Apache Hadoop和CDH的安裝,這為我們開啟Hadoop上的數(shù)據(jù)倉庫之旅做好了準(zhǔn)備。在一個數(shù)據(jù)倉庫項目中,開發(fā)階段最關(guān)鍵的是ETL過程。大致有三種ETL的實現(xiàn)途徑:使用ETL工具、使用特定數(shù)據(jù)庫的SQL、使用程序語言開發(fā)自己的ETL應(yīng)用。本章介紹第一種方式。我們將使用Kettle這款最流行的ETL工具操作Hadoop上的數(shù)據(jù)。

首先概要介紹Kettle對大數(shù)據(jù)的支持,然后用示例說明Kettle如何連接Hadoop,如何導(dǎo)入導(dǎo)出Hadoop集群上的數(shù)據(jù),如何用Kettle執(zhí)行Hive的HiveQL語句(HiveQL將在6.2節(jié)作簡要介紹),還會用一個典型的MapReduce轉(zhuǎn)換,說明Kettle在實際應(yīng)用中是怎樣利用Hadoop分布式計算框架的。本章最后介紹如何在Kettle中提交Spark作業(yè)。

主站蜘蛛池模板: 齐河县| 綦江县| 赣州市| 革吉县| 溧水县| 孙吴县| 新乡市| 三台县| 云浮市| 石屏县| 手机| 泰来县| 晴隆县| 寻甸| 桃园市| 大悟县| 寿光市| 沙坪坝区| 和政县| 万源市| 察哈| 邻水| 广宗县| 武汉市| 金昌市| 芮城县| 姜堰市| 龙山县| 米林县| 蕉岭县| 丘北县| 镇巴县| 呼图壁县| 河曲县| 多伦县| 卢湾区| 伊川县| 上蔡县| 策勒县| 甘德县| 淳化县|