- 敏捷數據分析工具箱:深入解析ADW+OAC
- 史躍東
- 20字
- 2024-01-22 19:34:03
第1章
數據倉庫的概念、興起及其構建方法論
1.1 數據倉庫的概念與發展歷程簡述
1991年,William H. Inmon在其出版的書籍Building the Data Warehouse(中文版譯為《數據倉庫》,目前最新為第四版)中,首次提出了數據倉庫的概念:
數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策(Decision Making Support)。
目前,這一定義已經為人們廣泛接受,Inmon也因此被稱為數據倉庫之父。
從數據倉庫的概念提出至今,已經過了30個年頭。在此期間,整個IT行業發生了翻天覆地的變化。從互聯網的興起,到大數據的出現,再到云計算的興盛,以及今日的AI與機器學習,計算機行業的技術浪潮前浪未止,后浪便又洶涌而來。
作為2006年開始接觸Oracle數據庫并由此進入該行業的筆者而言,有幸經歷了數據倉庫的低潮和再次興起、大數據與云計算的崛起等關鍵階段,也因此對數據倉庫這一技術有了些粗淺的認識。因此,筆者在這里與諸位讀者一道,從數據倉庫的發展歷程談起,以史為鑒,可知未來。
數據倉庫這一概念,其實是從數據庫演化而來的。眾所周知,當一家企業開始建設IT系統來支撐自己的日常運轉之后,企業內部的IT系統、數據庫就會逐漸多起來。當達到一定階段時,企業的高層及相關IT管理人員,包括一線的運維及開發人員,就會逐漸意識到,公司內部的系統太多,各系統之間的交互、數據訪問等就會變得煩瑣。并且,在企業經歷了一段信息化建設之后,企業內部的數據也積累起來了。
當然,現在我們已經知道,企業的數據可分為事務型數據和分析型數據。其中,事務型數據用于支撐和保障企業的日常交易、運行,以及管理;而分析型數據側重于在運營數據的基礎之上,經過一定的集成、加工和整理,來生成企業的周報、月報等常規報表,以及更高級的活動,如數據分析、數據挖掘等,進而為企業的發展提供決策參考。簡而言之,事務型數據(或者說運營數據)是為當前服務的,分析數據則是為了更好地規劃未來。關于這一點,有一個很能說明問題的小故事:一個月以前的報紙,只能按照收廢品的價格來衡量其價值;當天的報紙,可以用其定價來衡量其價值。那么,明天的報紙呢?那價值可就高太多了。
因此,數據倉庫就是企業的信息化建設到了一定程度,自然而然出現的一種技術和概念。國內的數據倉庫技術開始受到廣泛關注的時間大約是在2000年以后。2005年前后,眾多國內企業開始嘗試建立自己的數據倉庫。當然,初始階段,成功的案例不是太多。那時候人們已經意識到了數據是有價值的,但是如何發揮它們的價值,就是一件很難的事情了。因此,當時想建設數據倉庫的企業不在少數,但建成的就很少了。并且在這些建成的數據倉庫項目中,相當一部分也只不過是將公司的數據都放到了一起(當然,這也是數據湖(Data Lake)這一概念出現的緣由,關于數據湖的概念,可以參考《數據湖架構》,當然,作者也是Inmon),可以生成一些部門級或者是企業級的報表,至于其他的如數據挖掘等高級應用,成功的案例就少之又少了。
因此,雖然從那時起,無論在國內還是國外,數據倉庫項目一直都有企業在進行建設,但是對于整體而言,數據倉庫是處于一個相對低潮的階段的,直到大數據和云計算的興起。
- 數據存儲架構與技術
- iOS and OS X Network Programming Cookbook
- Creating Dynamic UIs with Android Fragments(Second Edition)
- Learn Unity ML-Agents:Fundamentals of Unity Machine Learning
- Hadoop 3.x大數據開發實戰
- Python數據分析與數據化運營
- 探索新型智庫發展之路:藍迪國際智庫報告·2015(下冊)
- 深入理解InfluxDB:時序數據庫詳解與實踐
- Web Services Testing with soapUI
- 商業智能工具應用與數據可視化
- openGauss數據庫核心技術
- 實現領域驅動設計
- 利用Python進行數據分析(原書第2版)
- 改進的群智能算法及其應用
- 離線和實時大數據開發實戰