- Hadoop構建數據倉庫實踐
- 王雪迎
- 423字
- 2020-11-28 16:11:51
1.6 小結
(1)數據倉庫是一個面向主題的、集成的、隨時間變化的、非易失的數據集合,用于支持管理者的決策過程。
(2)數據倉庫中的粒度是指數據的細節或匯總程度,細節程度越高,粒度級別越低。
(3)數據倉庫的數據來自各個業務應用系統。
(4)很多因素導致直接訪問業務系統無法進行全局數據分析的工作,這也是需要一個數據倉庫的原因所在。
(5)操作型系統是一類專門用于管理面向事務的應用信息系統,而分析型系統是一種快速回答多維分析查詢的實現方式,兩者在很多方面存在差異。
(6)構成數據倉庫系統的主要組成部分有數據源、ODS、中心數據倉庫、分析查詢引擎、ETL、元數據管理和自動化調度。
(7)主要的數據倉庫架構有獨立數據集市、從屬數據集市、Inmon企業信息工廠、Kimball多維數據倉庫、混合型數據倉庫。
(8)ETL是建立數據倉庫最重要的處理過程,也是最體現工作量的環節。
(9)Kettle是常用的開源ETL工具。
(10)數據倉庫的基本需求是安全性、可訪問性、自動化,對數據的要求是準確性、時效性、歷史可追溯性。