關系型數據是常見的一種數據類型,通常存儲在像MySQL、Oracle等關系型數據庫中,為了能夠利用大數據技術處理和存儲這些關系型數據,首先需將這些數據導入到像HDFS、HBase這樣的大數據存儲系統中,以便使用MapReduce、Spark這樣的分布式計算技術進行高效分析和處理。從另一個角度講,為了便于與前端的數據可視化系統對接,我們通常需要將Hadoop大數據系統分析產生的結果(比如報表,通常數據量不會太大)導回到關系型數據庫中。為了解決上述問題,高效地實現關系型數據庫與Hadoop之間的數據導入導出,Hadoop生態系統提供了工具Sqoop(SQL to Hadoop),本章將重點剖析Sqoop設計思想、基本架構以及常見的使用場景。