官术网_书友最值得收藏!

1.1 數(shù)據(jù)治理的相關概念

1.1.1 什么是數(shù)據(jù)?

數(shù)據(jù)(Data)是我們通過觀察、實驗或計算得出的結果。數(shù)據(jù)有很多種,最簡單的就是數(shù)字。數(shù)據(jù)也可以是文字、圖像、聲音等。數(shù)據(jù)可以用于科學研究、設計、查證等。

從下面的一條信息中可以看出數(shù)據(jù)的部分存在形式,如圖1-1所示。

圖1-1 數(shù)據(jù)存在形式

根據(jù)不同的維度,企業(yè)內(nèi)的各類數(shù)據(jù)大致可分為分析數(shù)據(jù)、共享(主)數(shù)據(jù)、業(yè)務場景數(shù)據(jù)、交易數(shù)據(jù)、元數(shù)據(jù)等,如圖1-2所示。

圖1-2 企業(yè)數(shù)據(jù)組成

1.1.2 什么是元數(shù)據(jù)?

元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),是描述數(shù)據(jù)的數(shù)據(jù)(Data about Data),是描述數(shù)據(jù)屬性(Property)的信息,用來支持如指示存儲位置、保存歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)組成如圖1-3所示。

圖1-3 元數(shù)據(jù)組成

技術元數(shù)據(jù)是描述數(shù)據(jù)系統(tǒng)中技術領域相關概念、關系和規(guī)則的數(shù)據(jù),主要包括對數(shù)據(jù)結構、數(shù)據(jù)處理方面的特征描述,覆蓋數(shù)據(jù)源接口、數(shù)據(jù)倉庫、數(shù)據(jù)集市、ETL、OLAP、數(shù)據(jù)封裝和前端展現(xiàn)等全部數(shù)據(jù)處理環(huán)節(jié)。

業(yè)務元數(shù)據(jù)是描述數(shù)據(jù)系統(tǒng)中業(yè)務領域相關概念、關系和規(guī)則的數(shù)據(jù),主要包括業(yè)務術語、信息分類、指標定義和業(yè)務規(guī)則等信息。

管理元數(shù)據(jù)是描述數(shù)據(jù)系統(tǒng)中管理領域相關概念、關系和規(guī)則的數(shù)據(jù),主要包括人員角色、崗位職責和管理流程等信息。

元數(shù)據(jù)最為重要的特征和功能是為數(shù)字化信息資源建立一種機器可理解框架。

沒有合適的元數(shù)據(jù),主數(shù)據(jù)管理就會失語。沒有元數(shù)據(jù),數(shù)據(jù)治理就沒有語料。

1.1.3 什么是主數(shù)據(jù)、靜態(tài)數(shù)據(jù)(中心)

主數(shù)據(jù)(Master Data):指描述某一業(yè)務實體對象時,基礎數(shù)據(jù)(屬性)中被兩個及兩個以上的業(yè)務系統(tǒng)共同使用的部分(屬性),通常指相對業(yè)務系統(tǒng)(或業(yè)務場景)的共有屬性及屬性的取值、格式、驗證、關系等。主數(shù)據(jù)不是一種數(shù)據(jù),只是數(shù)據(jù)存在的一種狀態(tài),類似大數(shù)據(jù)需要同時滿足幾個維度的標準時才可以稱之為大數(shù)據(jù)。

靜態(tài)數(shù)據(jù)(Static Data):指描述某一業(yè)務實體對象時,基礎數(shù)據(jù)(屬性)中靜態(tài)或相對靜態(tài)的數(shù)據(jù)的統(tǒng)稱(含主數(shù)據(jù)+業(yè)務場景或組織視角的私有數(shù)據(jù))。通常也可以指除交易數(shù)據(jù)以外的數(shù)據(jù)的統(tǒng)稱。

靜態(tài)數(shù)據(jù)中心(Static Data Center):指包括清洗后的歷史數(shù)據(jù)和新的標準、規(guī)范的新增數(shù)據(jù),以及描述了這些數(shù)據(jù)的私有(組織或業(yè)務場景信息)和公有(特征、基本信息等)屬性、規(guī)則、類別、文檔、關系、配置信息等全方位的信息集合。企業(yè)靜態(tài)數(shù)據(jù)中心的組成如圖1-4所示。

圖1-4 企業(yè)靜態(tài)數(shù)據(jù)中心組成

靜態(tài)數(shù)據(jù)中心作為企業(yè)靜態(tài)數(shù)據(jù)的核心數(shù)據(jù)庫,承擔著業(yè)務系統(tǒng)靜態(tài)數(shù)據(jù)的采集、規(guī)范和分發(fā)服務,為業(yè)務系統(tǒng)提供規(guī)范的靜態(tài)數(shù)據(jù)信息。

1.1.4 什么是企業(yè)數(shù)據(jù)治理?

企業(yè)數(shù)據(jù)治理,是指從使用零散數(shù)據(jù)變?yōu)槭褂媒y(tǒng)一規(guī)范數(shù)據(jù),從具有很少或沒有組織和流程治理到企業(yè)范圍內(nèi)的綜合數(shù)據(jù)治理,從嘗試處理數(shù)據(jù)混亂狀況到數(shù)據(jù)井井有條的一個過程。

關于數(shù)據(jù)治理和數(shù)據(jù)管理的爭論持續(xù)了好幾年,業(yè)內(nèi)人士各有不同的說法,每種說法貌似也都很有道理,我們就在此不做過多辨析。本書中定義的數(shù)據(jù)管理(DM)和數(shù)據(jù)治理(DG),類似中醫(yī)(講究“管”)和西醫(yī)(講究“治”)的思想。管理乃長期管控的過程,屬于長效機制;治理指某一時間段對數(shù)據(jù)的梳理措施和行為,是短期性針對數(shù)據(jù)質(zhì)量的干預動作。

長期的企業(yè)管理中,數(shù)據(jù)應該靠“管”,不能靠“治”。

關于在數(shù)據(jù)治理行業(yè)中的數(shù)據(jù)范圍界定問題也是根據(jù)不同的管理方式而定,本書所說的數(shù)據(jù)治理范圍是以相對靜態(tài)的數(shù)據(jù)為核心的數(shù)據(jù)治理(主數(shù)據(jù)管理只能算作其中一部分),其中包括元數(shù)據(jù)和靜態(tài)數(shù)據(jù)(主數(shù)據(jù)、業(yè)務場景數(shù)據(jù)、參考數(shù)據(jù)、指標數(shù)據(jù)),計劃、趨勢以及動態(tài)交易數(shù)據(jù)不屬于數(shù)據(jù)治理平臺管理的范疇。不同類型的數(shù)據(jù)治理策略如表1-1所示。

表1-1 數(shù)據(jù)治理策略

根據(jù)企業(yè)的實際情況,數(shù)據(jù)治理一般可以分為三種類型:源端數(shù)據(jù)治理、末端數(shù)據(jù)治理和綜合數(shù)據(jù)治理(詳見本書1.16節(jié))。

源端數(shù)據(jù)治理主要應用于如ERP、CRM、財務管理系統(tǒng);末端數(shù)據(jù)治理主要應用在數(shù)據(jù)倉庫等末端數(shù)據(jù)存儲中。

本書提到的綜合數(shù)據(jù)治理是源端數(shù)據(jù)治理和末端數(shù)據(jù)治理的綜合,并且是比其更廣泛的概念,通常我們稱作面向數(shù)據(jù)分析及業(yè)務管理的數(shù)據(jù)治理。

在一些機構對企業(yè)數(shù)據(jù)治理的調(diào)查中可以發(fā)現(xiàn),許多有實施過數(shù)據(jù)倉庫的企業(yè)已經(jīng)將下一步治理目標瞄準了數(shù)據(jù)治理。許多成功實施了數(shù)據(jù)治理的企業(yè)認為他們已經(jīng)從質(zhì)量良好的數(shù)據(jù)中獲得了收益。數(shù)據(jù)治理對于數(shù)據(jù)倉庫和商務智能有著深遠的影響,未來的企業(yè)大數(shù)據(jù)分析很大程度上也必須基于良好的數(shù)據(jù)質(zhì)量。

1.1.5 企業(yè)數(shù)據(jù)治理的價值有哪些?

企業(yè)實施數(shù)據(jù)治理項目具備以下8個方面的價值。

1.確立企業(yè)數(shù)據(jù)管理體系規(guī)范和標準,并實現(xiàn)其系統(tǒng)化落地

企業(yè)通過實施數(shù)據(jù)治理項目,在考慮企業(yè)現(xiàn)有數(shù)據(jù)管理的基礎上,可以制定出全面符合企業(yè)未來5~10年信息化發(fā)展的數(shù)據(jù)模型、數(shù)據(jù)管理制度、數(shù)據(jù)管理流程。可以全面實現(xiàn)數(shù)據(jù)管理體系的系統(tǒng)化落地,解決企業(yè)長期以來生產(chǎn)過程中數(shù)據(jù)描述不準確、不規(guī)范、不統(tǒng)一的問題,進而提高了計劃執(zhí)行、倉庫盤點、材料采購等的準確率,減少了企業(yè)資金的浪費,為企業(yè)的快速發(fā)展奠定基礎。

2.全面梳理并清洗存量數(shù)據(jù),根治多年積累的數(shù)據(jù)質(zhì)量問題

通過實施企業(yè)數(shù)據(jù)治理項目,可以由數(shù)據(jù)清洗平臺依照以下策略對存量數(shù)據(jù)進行清洗,解決當前企業(yè)數(shù)據(jù)存在大量的不一致、不完整、數(shù)據(jù)冗余等問題:

1)針對不同業(yè)務系統(tǒng)中的歷史數(shù)據(jù)進行自動或人工的一次性清洗,并形成最終的冗余數(shù)據(jù)映射關系。

2)把冗余數(shù)據(jù)映射關系保存到企業(yè)數(shù)據(jù)治理平臺核心數(shù)據(jù)庫中,為業(yè)務系統(tǒng)的數(shù)據(jù)停用以及后期BI(商業(yè)智能)的使用提供堅實的數(shù)據(jù)基礎。

3.全面實現(xiàn)數(shù)據(jù)管理的系統(tǒng)化、集中化,節(jié)省業(yè)務系統(tǒng)用戶數(shù)

通過實施企業(yè)數(shù)據(jù)治理項目,引入數(shù)據(jù)治理平臺,可以實現(xiàn)企業(yè)數(shù)據(jù)管理過程的全面電子化,可全部脫離原有的手工操作,擺脫原有手工查重和編碼的繁重工作,大大改善和加快信息的傳遞和反饋,增強信息的準確性、及時性。

企業(yè)數(shù)據(jù)治理平臺的數(shù)據(jù)模型的視圖化、全面化、自定義化,完全可以模擬現(xiàn)有業(yè)務系統(tǒng)的數(shù)據(jù)檔案并及時分發(fā)到對應業(yè)務系統(tǒng)中去,真正實現(xiàn)業(yè)務系統(tǒng)數(shù)據(jù)檔案的外部新增,為企業(yè)數(shù)據(jù)中心的建立奠定堅實的基礎。

4.搭建全面科學的數(shù)據(jù)驗證體系,杜絕數(shù)據(jù)冗余的再次發(fā)生

企業(yè)數(shù)據(jù)治理平臺的組合式編碼、立體式查重機制改善了原有企業(yè)數(shù)據(jù)編碼的模式和弊端,企業(yè)數(shù)據(jù)治理平臺內(nèi)置的多方位的數(shù)據(jù)驗證機制(如文本、文本框、數(shù)字、是否選擇、樹狀數(shù)據(jù)限定、平面數(shù)據(jù)限定、組合數(shù)據(jù)限定等)從數(shù)據(jù)錄入的源頭杜絕可能發(fā)生的錯誤。

5.實現(xiàn)數(shù)據(jù)管理過程的流程化、制度化、準確化

通過實現(xiàn)數(shù)據(jù)管理制度和流程的系統(tǒng)落地,實現(xiàn)企業(yè)數(shù)據(jù)管理過程的有效監(jiān)督和執(zhí)行、流程化的信息推送,使數(shù)據(jù)管理工作由被動轉(zhuǎn)為主動,使管理過程責任透明化,提高執(zhí)行效率。并且系統(tǒng)化的數(shù)據(jù)管理監(jiān)控機制,掃清了傳統(tǒng)手工狀態(tài)下的各種管理障礙,使管理更加清晰、責任更加明確、數(shù)據(jù)更加準確。

系統(tǒng)權限劃分可以針對不同人員分配不同的數(shù)據(jù)編制和審核權限,解決了目前多方信息傳遞的失真、緩慢等問題,提升了信息的準確率,縮短了整個數(shù)據(jù)新增的時間,提升了數(shù)據(jù)新增的效率。

6.實現(xiàn)詳盡的靜態(tài)數(shù)據(jù)服務

企業(yè)數(shù)據(jù)治理平臺的引入提供了全方位、多角度、權限化、立體智能查詢機制,完全滿足所有人員的數(shù)據(jù)查詢需求,可大幅縮短數(shù)據(jù)查詢以及編碼和數(shù)據(jù)業(yè)務實體對照時間。

7.數(shù)據(jù)交換平臺全面實現(xiàn)企業(yè)數(shù)據(jù)的協(xié)同、聯(lián)動

通過實施數(shù)據(jù)治理項目引入的數(shù)據(jù)交換平臺,通過簡單的配置即可實現(xiàn)包括數(shù)據(jù)的分發(fā)機制、分發(fā)內(nèi)容、分發(fā)時間等的設置,全面滿足企業(yè)現(xiàn)有以及未來數(shù)據(jù)管理的協(xié)同和聯(lián)動要求。

8.建立了統(tǒng)一的數(shù)據(jù)標準,為企業(yè)資源共享、快速決策提供保障

企業(yè)數(shù)據(jù)治理平臺從數(shù)據(jù)錄入的源頭開始實現(xiàn)規(guī)范、標準,杜絕人為化的錯誤產(chǎn)生,規(guī)范后的數(shù)據(jù)通過數(shù)據(jù)交換平臺實現(xiàn)靜態(tài)、動態(tài)以及橫向、縱向的企業(yè)信息化服務。從根本上保證了BI等工具數(shù)據(jù)分析的準確率,使企業(yè)的數(shù)據(jù)資產(chǎn)價值得到全面體現(xiàn)。

1.1.6 企業(yè)數(shù)據(jù)治理的源、末端模式

企業(yè)數(shù)據(jù)治理解決了數(shù)據(jù)的冗余、一致性、完整性、規(guī)范性等問題,從而使數(shù)據(jù)分析能夠發(fā)揮最大的管理價值。通過制定及貫徹執(zhí)行各類業(yè)務和技術標準,就能從技術上、管理上把各方面有機地聯(lián)系起來,形成一個統(tǒng)一的系統(tǒng)整體,保證數(shù)據(jù)治理過程進行得有條不紊。

目前企業(yè)存在三種數(shù)據(jù)治理模式,具體如下:

● 源端數(shù)據(jù)治理,是指通過解決業(yè)務系統(tǒng)源頭數(shù)據(jù)質(zhì)量的問題,實現(xiàn)提高數(shù)據(jù)分析的準確率。

● 末端數(shù)據(jù)治理,是指針對解決數(shù)據(jù)全生命周期的末端(數(shù)據(jù)倉庫層)數(shù)據(jù)質(zhì)量的問題,實現(xiàn)提高數(shù)據(jù)分析的準確率。

● 綜合數(shù)據(jù)治理,是指包括源端和末端數(shù)據(jù)治理的混合模式。

1.源端數(shù)據(jù)治理模式

針對源端的數(shù)據(jù)治理是主流的數(shù)據(jù)治理模式,目前行業(yè)內(nèi)80%以上的方案都采用此模式。如靜態(tài)數(shù)據(jù)治理、主數(shù)據(jù)管理、編碼管理等,都是屬于針對業(yè)務系統(tǒng)的直接影響實現(xiàn)數(shù)據(jù)質(zhì)量的改造,最終達到支撐數(shù)據(jù)應用分析的目的。

源端數(shù)據(jù)治理模式適用的企業(yè),包括生產(chǎn)型企業(yè)、大型集團本部、運營管控型集團等,不涉及數(shù)據(jù)改造后無法返回到對應業(yè)務系統(tǒng)的情況。

源端數(shù)據(jù)治理支撐數(shù)據(jù)分析及業(yè)務管理框架,具體如圖1-5所示。

圖1-5 源端數(shù)據(jù)治理支撐數(shù)據(jù)分析及業(yè)務管理框架

由圖1-5可以看出,數(shù)據(jù)治理平臺直接新增數(shù)據(jù)或者通過數(shù)據(jù)交換平臺(Exchange)從業(yè)務系統(tǒng)采集的新增數(shù)據(jù)進行規(guī)范、改造后,一方面冗余數(shù)據(jù)自動進入冗余數(shù)據(jù)映射關系庫,另一方面改造后的數(shù)據(jù)再次回傳到對應業(yè)務系統(tǒng),實現(xiàn)對業(yè)務系統(tǒng)數(shù)據(jù)質(zhì)量的改造(在業(yè)務系統(tǒng)運行的前提下)。

當ETL從業(yè)務系統(tǒng)中抽取數(shù)據(jù)的時候,同時從冗余數(shù)據(jù)映射關系庫中抽取冗余數(shù)據(jù)的關系參照,在加載到數(shù)據(jù)倉庫時會注明某些編碼(數(shù)據(jù))對應的業(yè)務實體對象其實是一個,這樣未來進行數(shù)據(jù)分析時可以實現(xiàn)同一業(yè)務實體對象不同編碼的業(yè)務數(shù)據(jù)的累加,從而實現(xiàn)數(shù)據(jù)分析的精確度最大化。

2.末端數(shù)據(jù)治理模式

末端數(shù)據(jù)治理技術架構如圖1-6所示。從圖中可以看出,所謂末端數(shù)據(jù)治理,是指數(shù)據(jù)被集成到原業(yè)務系統(tǒng)外的某個區(qū)域(一般指數(shù)據(jù)倉庫的ODS層,即數(shù)據(jù)倉庫的操作數(shù)據(jù)存儲層)后集中進行質(zhì)量識別、處理的過程。此模式適用于戰(zhàn)略管控型或者財務管控型的大型企業(yè)集團(央企或者大型國企)的頂層數(shù)據(jù)分析,大部分數(shù)據(jù)來源于二、三級單位上報的數(shù)據(jù),本部系統(tǒng)比較簡單,數(shù)據(jù)量較少、較單一。

圖1-6 企業(yè)末端數(shù)據(jù)治理技術架構

通過末端數(shù)據(jù)治理對ODS層的數(shù)據(jù)質(zhì)量干預,可以實現(xiàn)深層次數(shù)據(jù)質(zhì)量問題的解決,最大化支撐數(shù)據(jù)分析的準確率。目前此方案已經(jīng)比較成熟。

當然,隨著技術、理念的成熟,下一步還可以繼續(xù)深入到DW(數(shù)據(jù)倉庫)、DM(數(shù)據(jù)集市)層去更進一步優(yōu)化數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)分析的準確率接近完美。

1.1.7 企業(yè)的二次數(shù)據(jù)治理

所謂企業(yè)的二次數(shù)據(jù)治理是指:企業(yè)經(jīng)歷過一輪數(shù)據(jù)治理后,經(jīng)過一段時間因為種種因素,目前數(shù)據(jù)質(zhì)量已“重蹈覆轍”(數(shù)據(jù)質(zhì)量又出現(xiàn)各種問題),需要再次進行數(shù)據(jù)治理工作。

1.二次治理的原因

其實現(xiàn)階段二次治理的企業(yè)基本都是信息化程度較高的大型央企或者各地國企,屬于數(shù)據(jù)治理的“先行者”。關于數(shù)據(jù)質(zhì)量問題的再次顯現(xiàn),究其原因,要么是太相信技術,要么就是太相信自己。

企業(yè)被確認為需要實施二次數(shù)據(jù)治理的幾個特征如下:

● 主數(shù)據(jù)管理項目實施后,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題比例超過20%;

● 主數(shù)據(jù)管理平臺淪為賦碼工具;

● 集團二級單位單獨開展主數(shù)據(jù)管理工作;

● 企業(yè)開始尋求數(shù)據(jù)的全面治理。

以上幾種情況的具體原因后續(xù)章節(jié)會有詳細介紹,在此不再贅述。

2.二次數(shù)據(jù)治理的方法

二次數(shù)據(jù)治理有兩種對應的方法,一是“徹底根除”法(指原有體系全部推倒,重新開展數(shù)據(jù)治理項目),二是“亡羊補牢”法。

尤其是徹底根除法,可想而知重新再來一次的代價有多大,一般的企業(yè)很少有這種魄力,有時候各種因素不允許出現(xiàn)這樣的重新來過。

因此,我們還是重點推薦亡羊補牢法,即可以解決問題又不至于痛苦地重新再來一遍。所謂的亡羊補牢,就是指在不破壞現(xiàn)狀的基礎上最大可能地修補原有數(shù)據(jù)治理的架構,以確保數(shù)據(jù)質(zhì)量得以保障。

具體的方法如下:

1)重新梳理數(shù)據(jù)標準,確定數(shù)據(jù)標準是否有調(diào)整的必要。

2)全面檢測數(shù)據(jù)質(zhì)量,重新全面清洗、改造存量數(shù)據(jù)。

3)搭建數(shù)據(jù)質(zhì)量評估監(jiān)測平臺,利用AI等技術構建數(shù)據(jù)質(zhì)量的大數(shù)據(jù)行為模式的再評估、再處理體系。

主站蜘蛛池模板: 洞口县| 额济纳旗| 永福县| 扬中市| 特克斯县| 泸州市| 汉川市| 丹棱县| 开阳县| 德兴市| 夏河县| 新兴县| 通河县| 舟山市| 台东县| 湾仔区| 丰原市| 志丹县| 绥棱县| 板桥市| 宁安市| 巨鹿县| 阳东县| 寿阳县| 宣化县| 太仓市| 金寨县| 小金县| 奇台县| 泊头市| 泽州县| 阜南县| 洞头县| 黄骅市| 浦县| 红河县| 宁海县| 珲春市| 建德市| 福建省| 北票市|