官术网_书友最值得收藏!

第二部分 數據收集篇

第2章 關系型數據的收集

從本章開始,我們將介紹與數據收集相關的工具和系統。正如第1章所述,數據可簡單分為關系型和非關系型兩種,本章重點介紹如何實現關系型數據的收集。

關系型數據是常見的一種數據類型,通常存儲在像MySQL、Oracle等關系型數據庫中,為了能夠利用大數據技術處理和存儲這些關系型數據,首先需將這些數據導入到像HDFS、HBase這樣的大數據存儲系統中,以便使用MapReduce、Spark這樣的分布式計算技術進行高效分析和處理。從另一個角度講,為了便于與前端的數據可視化系統對接,我們通常需要將Hadoop大數據系統分析產生的結果(比如報表,通常數據量不會太大)導回到關系型數據庫中。為了解決上述問題,高效地實現關系型數據庫與Hadoop之間的數據導入導出,Hadoop生態系統提供了工具Sqoop(SQL to Hadoop),本章將重點剖析Sqoop設計思想、基本架構以及常見的使用場景。

主站蜘蛛池模板: 胶州市| 潞城市| 石门县| 屏东县| 北安市| 甘肃省| 三门峡市| 乐亭县| 广河县| 即墨市| 方城县| 林甸县| 兴山县| 临沧市| 稻城县| 阳新县| 洛阳市| 闸北区| 婺源县| 城固县| 黔江区| 梁山县| 怀安县| 秭归县| 红安县| 海安县| 荥阳市| 栾川县| 棋牌| 梁河县| 东乌珠穆沁旗| 囊谦县| 南宁市| 宁波市| 特克斯县| 嘉黎县| 平江县| 玛曲县| 抚顺市| 宾阳县| 洛川县|