官术网_书友最值得收藏!

第二部分 數據收集篇

第2章 關系型數據的收集

從本章開始,我們將介紹與數據收集相關的工具和系統。正如第1章所述,數據可簡單分為關系型和非關系型兩種,本章重點介紹如何實現關系型數據的收集。

關系型數據是常見的一種數據類型,通常存儲在像MySQL、Oracle等關系型數據庫中,為了能夠利用大數據技術處理和存儲這些關系型數據,首先需將這些數據導入到像HDFS、HBase這樣的大數據存儲系統中,以便使用MapReduce、Spark這樣的分布式計算技術進行高效分析和處理。從另一個角度講,為了便于與前端的數據可視化系統對接,我們通常需要將Hadoop大數據系統分析產生的結果(比如報表,通常數據量不會太大)導回到關系型數據庫中。為了解決上述問題,高效地實現關系型數據庫與Hadoop之間的數據導入導出,Hadoop生態系統提供了工具Sqoop(SQL to Hadoop),本章將重點剖析Sqoop設計思想、基本架構以及常見的使用場景。

主站蜘蛛池模板: 延边| 和林格尔县| 喜德县| 镇赉县| 杭锦旗| 武邑县| 铜鼓县| 隆安县| 来宾市| 托克托县| 富阳市| 四子王旗| 西乌珠穆沁旗| 玉龙| 抚顺县| 白水县| 云梦县| 乐东| 望江县| 凤山市| 临湘市| 邵阳市| 溧阳市| 永德县| 宜宾县| 呈贡县| 肇州县| 丹寨县| 房产| 桑日县| 长子县| 鞍山市| 乌鲁木齐县| 隆德县| 含山县| 峨眉山市| 长宁县| 洪雅县| 梧州市| 南宁市| 丹东市|