- 大數據技術體系詳解:原理、架構與實踐
- 董西成
- 342字
- 2019-01-04 11:06:16
第二部分 數據收集篇
第2章 關系型數據的收集
從本章開始,我們將介紹與數據收集相關的工具和系統。正如第1章所述,數據可簡單分為關系型和非關系型兩種,本章重點介紹如何實現關系型數據的收集。
關系型數據是常見的一種數據類型,通常存儲在像MySQL、Oracle等關系型數據庫中,為了能夠利用大數據技術處理和存儲這些關系型數據,首先需將這些數據導入到像HDFS、HBase這樣的大數據存儲系統中,以便使用MapReduce、Spark這樣的分布式計算技術進行高效分析和處理。從另一個角度講,為了便于與前端的數據可視化系統對接,我們通常需要將Hadoop大數據系統分析產生的結果(比如報表,通常數據量不會太大)導回到關系型數據庫中。為了解決上述問題,高效地實現關系型數據庫與Hadoop之間的數據導入導出,Hadoop生態系統提供了工具Sqoop(SQL to Hadoop),本章將重點剖析Sqoop設計思想、基本架構以及常見的使用場景。