- Hadoop構建數(shù)據(jù)倉庫實踐
- 王雪迎
- 1495字
- 2020-11-28 16:11:51
1.5 數(shù)據(jù)倉庫需求
本小節(jié)從基本需求和數(shù)據(jù)需求兩方面介紹對數(shù)據(jù)倉庫系統(tǒng)的整體要求。
1.5.1 基本需求
數(shù)據(jù)倉庫的目的就是能夠讓用戶方便地訪問大量數(shù)據(jù),允許用戶查詢和分析其中的業(yè)務信息。這就要求數(shù)據(jù)倉庫必須是安全的、可訪問的和自動化的。
1.安全性
數(shù)據(jù)倉庫中含有機密和敏感的數(shù)據(jù)。為了能夠使用這些數(shù)據(jù),必須有適當?shù)氖跈鄼C制。這意味著只有被授權的用戶才能訪問數(shù)據(jù),這些用戶在享有特權的同時,也有責任保證數(shù)據(jù)的安全。
增加安全特性會影響到數(shù)據(jù)倉庫的性能,因此必須提早考慮數(shù)據(jù)倉庫的安全需求。當數(shù)據(jù)倉庫已經建立完成并開始使用后,此時再應用安全特性會比較困難。在數(shù)據(jù)倉庫的設計階段,我們就應該進行如下的安全性考慮:
● 數(shù)據(jù)倉庫中的數(shù)據(jù)對于最終用戶是只讀的,任何人都不能修改其中的數(shù)據(jù),這是由數(shù)據(jù)的非易失性所決定的。
● 劃分數(shù)據(jù)的安全等級,如公開的、機密、秘密、絕密等。
● 制定訪問控制方案,決定哪些用戶可以訪問哪些數(shù)據(jù)。
● 設計授予、回收、變更用戶訪問權限的方法。
● 添加對數(shù)據(jù)訪問的審計功能。
2.可訪問性
能夠快速準確地分析所需要的數(shù)據(jù)是輔助決策支持的關鍵。有了數(shù)據(jù)的支持,業(yè)務就可以根據(jù)市場和客戶的情況做出及時地調整。這就要求用戶能夠有效地查找、理解和使用數(shù)據(jù)。數(shù)據(jù)應該是隨時可訪問的。
數(shù)據(jù)的可訪問性是一個IT技術的通用特性。這里數(shù)據(jù)可訪問性指的是用戶訪問和檢索數(shù)據(jù)的能力。數(shù)據(jù)倉庫的最終用戶通常是業(yè)務人員、管理人員或者數(shù)據(jù)分析師。他們對組織內的相關業(yè)務非常熟悉,對數(shù)據(jù)的理解也很透徹,但是他們大都不是IT技術專家。這就要求我們在設計數(shù)據(jù)倉庫的時候,將用戶接口設計得盡量友好和簡單,使得沒有技術背景的用戶同樣可以輕易查詢到他們需要的數(shù)據(jù)。
3.自動化
這里的自動化有狹義和廣義兩個層面的理解。狹義的自動化指的是數(shù)據(jù)倉庫相關作業(yè)的自動執(zhí)行。比如ETL過程、報表生成、數(shù)據(jù)傳輸?shù)忍幚恚伎梢灾芷谛远〞r自動完成。廣義的數(shù)據(jù)倉庫自動化指的是在保證數(shù)據(jù)質量和數(shù)據(jù)一致性的前提下,加速數(shù)據(jù)倉庫系統(tǒng)開發(fā)周期的過程。整個數(shù)據(jù)倉庫生命周期的自動化,從對源系統(tǒng)分析到ETL,再到數(shù)據(jù)倉庫的建立、測試和文檔化,可以幫助加快產品化進程,降低開發(fā)和管理成本,提高數(shù)據(jù)質量。
1.5.2 數(shù)據(jù)需求
通過數(shù)據(jù)倉庫,既可以周期性地回答已知的問題(如報表等),也可以進行即席查詢(ad-hoc queries)。報表最基本的需求就是對預定義好的一系列查詢條件、查詢內容,排序條件等進行組合,查詢數(shù)據(jù),把結果用表格或圖形的形式展現(xiàn)出來。而所謂的即席查詢不是預定義好的,而是在執(zhí)行時才確定的。換句話說,即席查詢是指那些用戶在使用系統(tǒng)時,根據(jù)自己當時的需求定義的查詢。數(shù)據(jù)庫管理員使用命令行或客戶端軟件,連接數(shù)據(jù)庫系統(tǒng)執(zhí)行各種各樣的查詢語句,是最為常見的一種即席查詢方式。而理想的數(shù)據(jù)倉庫系統(tǒng),允許業(yè)務或分析人員也可以通過系統(tǒng)執(zhí)行這樣的自定義查詢。為了滿足需求,數(shù)據(jù)倉庫中的數(shù)據(jù)需要確保準確性、時效性和歷史可追溯性。
1.準確性
想要數(shù)據(jù)倉庫實施成功,業(yè)務用戶必須信任其中的數(shù)據(jù)。這就意味著他們應該能知道數(shù)據(jù)從哪來,何時抽取,怎么轉換的。更重要的是,他們需要訪問原始數(shù)據(jù)來確定如何解決數(shù)據(jù)差異問題。實際上ETL過程應該總是在數(shù)據(jù)倉庫的某個地方(如ODS)保留一份原始數(shù)據(jù)的復制。
2.時效性
用戶的時效性要求差異很大。有些用戶需要數(shù)據(jù)精確到毫秒級,而有些用戶只需要幾分鐘、幾小時甚至幾天前的數(shù)據(jù)就可以了。數(shù)據(jù)倉庫是分析型系統(tǒng),用于決策支持,所以實踐中一般不需要很強的實時性,以一天作為時間粒度是比較常見的。
3.歷史可追溯性
數(shù)據(jù)倉庫更多的價值體現(xiàn)在它能夠輔助隨時間變化的趨勢分析,并幫助理解業(yè)務事件(如特殊節(jié)日促銷等)與經營績效之間的關系。
- 數(shù)據(jù)產品經理高效學習手冊:產品設計、技術常識與機器學習
- 數(shù)據(jù)可視化:從小白到數(shù)據(jù)工程師的成長之路
- Python金融大數(shù)據(jù)分析(第2版)
- Creating Mobile Apps with Sencha Touch 2
- Spark大數(shù)據(jù)分析實戰(zhàn)
- Python廣告數(shù)據(jù)挖掘與分析實戰(zhàn)
- 數(shù)據(jù)庫開發(fā)實踐案例
- Hadoop與大數(shù)據(jù)挖掘(第2版)
- UDK iOS Game Development Beginner's Guide
- 智能數(shù)據(jù)分析:入門、實戰(zhàn)與平臺構建
- SQL應用及誤區(qū)分析
- 探索新型智庫發(fā)展之路:藍迪國際智庫報告·2015(下冊)
- 數(shù)字IC設計入門(微課視頻版)
- Visual Studio 2012 and .NET 4.5 Expert Development Cookbook
- Swift 2 By Example