- 敏捷數據分析工具箱:深入解析ADW+OAC
- 史躍東
- 1249字
- 2024-01-22 19:34:03
第1章
數據倉庫的概念、興起及其構建方法論
1.1 數據倉庫的概念與發展歷程簡述
1991年,William H. Inmon在其出版的書籍Building the Data Warehouse(中文版譯為《數據倉庫》,目前最新為第四版)中,首次提出了數據倉庫的概念:
數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策(Decision Making Support)。
目前,這一定義已經為人們廣泛接受,Inmon也因此被稱為數據倉庫之父。
從數據倉庫的概念提出至今,已經過了30個年頭。在此期間,整個IT行業發生了翻天覆地的變化。從互聯網的興起,到大數據的出現,再到云計算的興盛,以及今日的AI與機器學習,計算機行業的技術浪潮前浪未止,后浪便又洶涌而來。
作為2006年開始接觸Oracle數據庫并由此進入該行業的筆者而言,有幸經歷了數據倉庫的低潮和再次興起、大數據與云計算的崛起等關鍵階段,也因此對數據倉庫這一技術有了些粗淺的認識。因此,筆者在這里與諸位讀者一道,從數據倉庫的發展歷程談起,以史為鑒,可知未來。
數據倉庫這一概念,其實是從數據庫演化而來的。眾所周知,當一家企業開始建設IT系統來支撐自己的日常運轉之后,企業內部的IT系統、數據庫就會逐漸多起來。當達到一定階段時,企業的高層及相關IT管理人員,包括一線的運維及開發人員,就會逐漸意識到,公司內部的系統太多,各系統之間的交互、數據訪問等就會變得煩瑣。并且,在企業經歷了一段信息化建設之后,企業內部的數據也積累起來了。
當然,現在我們已經知道,企業的數據可分為事務型數據和分析型數據。其中,事務型數據用于支撐和保障企業的日常交易、運行,以及管理;而分析型數據側重于在運營數據的基礎之上,經過一定的集成、加工和整理,來生成企業的周報、月報等常規報表,以及更高級的活動,如數據分析、數據挖掘等,進而為企業的發展提供決策參考。簡而言之,事務型數據(或者說運營數據)是為當前服務的,分析數據則是為了更好地規劃未來。關于這一點,有一個很能說明問題的小故事:一個月以前的報紙,只能按照收廢品的價格來衡量其價值;當天的報紙,可以用其定價來衡量其價值。那么,明天的報紙呢?那價值可就高太多了。
因此,數據倉庫就是企業的信息化建設到了一定程度,自然而然出現的一種技術和概念。國內的數據倉庫技術開始受到廣泛關注的時間大約是在2000年以后。2005年前后,眾多國內企業開始嘗試建立自己的數據倉庫。當然,初始階段,成功的案例不是太多。那時候人們已經意識到了數據是有價值的,但是如何發揮它們的價值,就是一件很難的事情了。因此,當時想建設數據倉庫的企業不在少數,但建成的就很少了。并且在這些建成的數據倉庫項目中,相當一部分也只不過是將公司的數據都放到了一起(當然,這也是數據湖(Data Lake)這一概念出現的緣由,關于數據湖的概念,可以參考《數據湖架構》,當然,作者也是Inmon),可以生成一些部門級或者是企業級的報表,至于其他的如數據挖掘等高級應用,成功的案例就少之又少了。
因此,雖然從那時起,無論在國內還是國外,數據倉庫項目一直都有企業在進行建設,但是對于整體而言,數據倉庫是處于一個相對低潮的階段的,直到大數據和云計算的興起。
- Mastering Ninject for Dependency Injection
- Creating Mobile Apps with Sencha Touch 2
- 分布式數據庫系統:大數據時代新型數據庫技術(第3版)
- Redis應用實例
- SQL查詢:從入門到實踐(第4版)
- Lean Mobile App Development
- Spark核心技術與高級應用
- Ceph源碼分析
- Learning Proxmox VE
- SQL Server 2012數據庫管理教程
- 辦公應用與計算思維案例教程
- Construct 2 Game Development by Example
- R Machine Learning Essentials
- MySQL技術內幕:InnoDB存儲引擎
- 從零進階!數據分析的統計基礎(第2版)