第二部分數據收集篇

第2章關系型數據的收集

從本章開始，我們將介紹與數據收集相關的工具和系統。正如第1章所述，數據可簡單分為關系型和非關系型兩種，本章重點介紹如何實現關系型數據的收集。

關系型數據是常見的一種數據類型，通常存儲在像MySQL、Oracle等關系型數據庫中，為了能夠利用大數據技術處理和存儲這些關系型數據，首先需將這些數據導入到像HDFS、HBase這樣的大數據存儲系統中，以便使用MapReduce、Spark這樣的分布式計算技術進行高效分析和處理。從另一個角度講，為了便于與前端的數據可視化系統對接，我們通常需要將Hadoop大數據系統分析產生的結果（比如報表，通常數據量不會太大）導回到關系型數據庫中。為了解決上述問題，高效地實現關系型數據庫與Hadoop之間的數據導入導出，Hadoop生態系統提供了工具Sqoop（SQL to Hadoop），本章將重點剖析Sqoop設計思想、基本架構以及常見的使用場景。

官术网_书友最值得收藏!

大數據技術體系詳解：原理、架構與實踐

第二部分 數據收集篇

第2章 關系型數據的收集

第二部分數據收集篇

第2章關系型數據的收集