- Hadoop構建數據倉庫實踐
- 王雪迎
- 579字
- 2020-11-28 16:11:52
2.4 數據集市
在第1章中介紹了獨立數據集市和從屬數據集市兩種架構,本節繼續討論數據集市的概念、與數據倉庫的區別、數據集市的設計等問題。
2.4.1 數據集市的概念
數據集市是數據倉庫的一種簡單形式,通常由組織內的業務部門自己建立和控制。一個數據集市面向單一主題域,如銷售、財務、市場等。數據集市的數據源可以是操作型系統(獨立數據集市),也可以是企業級數據倉庫(從屬數據集市)。
2.4.2 數據集市與數據倉庫的區別
不同于數據集市,數據倉庫處理整個組織范圍內的多個主題域,通常是由組織內的核心單位,如IT部門承建,所以經常被稱為中心數據倉庫或企業數據倉庫。數據倉庫需要集成很多操作型源系統中的數據。由于數據集市的復雜度和需要處理的數據都小于數據倉庫,因此更容易建立與維護。表2-19總結了數據倉庫與數據集市的主要區別。
表2-19 數據倉庫與數據集市的主要區別

2.4.3 數據集市設計
數據集市主要用于部門級別的分析型應用,數據大都是經過了匯總和聚合操作,粒度級別較高。數據集市一般采用維度模型設計方法,數據結構使用星型模式或雪花模式。
正如前面所介紹的,設計維度模型先要確定維度表、事實表和數據粒度級別,下一步是使用主外鍵定義事實表和維度表之間的關系。數據集市中的主鍵最好使用系統生成的自增的單列數字型代理鍵。模型建立好之后,設計ETL步驟抽取操作型源系統的數據,經過數據清洗和轉換,最終裝載進數據集市中的維度表和事實表中。
推薦閱讀
- 數據浪潮
- 計算機綜合設計實驗指導
- 醫療大數據挖掘與可視化
- 數據庫應用基礎教程(Visual FoxPro 9.0)
- INSTANT Cytoscape Complex Network Analysis How-to
- Spark大數據編程實用教程
- 跟老男孩學Linux運維:MySQL入門與提高實踐
- 大數據技術入門
- 云原生數據中臺:架構、方法論與實踐
- 企業級容器云架構開發指南
- Spring MVC Beginner’s Guide
- MySQL數據庫實用教程
- 利用Python進行數據分析(原書第2版)
- Access 2010數據庫應用技術教程(第二版)
- C# 7 and .NET Core 2.0 High Performance