1.3 企業數據治理該走向何方
國際數據管理協會(DAMA)的《數據管理知識體系指南》一書中對數據治理進行了嚴格、詳實地定義,目前基本成為數據治理行業的指導大綱。但是其也只是指導型的內容,具體的操作方式還需要我們繼續探索和研究。
目前國內的數據治理廠商大體分為兩個方向,一是面向企業,再就是面向政府、金融、電信等行業。這里有個很大的誤區,就是很多人認為面向政府、金融的數據治理產品可以替代面向企業的數據治理產品。相對而言,面向政府、金融、電信的數據治理產品要求的技術含量要高一些,處理的數據量要大一些,但是處理數據問題的深度要淺一些,因為這幾個行業沒有復雜的物資數據(模型分層級且非常多)存在,所有數據(如客戶、人員等)的模型都是單一的,也就不存在深層次的數據質量問題。所以在企業數據治理中一旦遇到深層次的數據質量問題,此類產品就束手無策了。
但是,從產品的功能結構上我們還真的不好鑒別其優劣,所有的產品似乎都包括元數據原理、數據質量管理、主數據管理、數據生命周期管理、數據交換管理、數據清洗管理等功能,齊全的功能可能會造成了選擇的困難。
企業數據治理,除了要有廣度以外,還要有深度,必須解決深層次的問題才能算得上長久之計。結合國內企業實際,企業數據治理應分為數據環境治理、數據質量治理、數據安全治理、數據交換治理、數據運維管理5部分。企業的數據應分為靜態數據和交易數據兩部分。所謂的數據治理也應該指靜態數據的治理,因為純交易數據(數字或數額)正常不會出現質量問題。
因此,企業數據治理的方向應該依據以上5部分實施,并且應滿足以下7個關鍵點。
1.3.1 構建數據治理整體架構確保數據治理的整體性
制定數據治理架構是數據治理的核心任務,好的數據治理架構可以確保數據治理的整體性,實現徹底、完善的數據治理,更好地達到數據治理的預期效果。
因此應該構建包括一個體系(數據標準體系)、三個環境(治理型環境、分析型環境、知識型環境)、一個架構(面向服務的集成架構)的數據治理整體架構,如圖1-7所示。

圖1-7 數據治理整體架構
數據標準體系:是企業數據治理架構中的核心底層部分,通常也指數據環境,包括數據分類及編碼標準、數據模型標準、數據質量管理標準、數據安全管理標準、數據交換標準,對應落地平臺應具備管理數據標準體系的過程和結果的功能。
治理型環境:是指數據全生命周期管理的過程,是解決數據質量、安全等的核心功能部分,包括體系構建、靜態數據中心管理(數據建模管理、數據編碼管理、數據質量管理、數據日常管控)、數據交換管理、數據清洗管理、數據保養管理(數據評估監測)。對應平臺建議采用企業數據治理平臺,不建議采用主數據管理平臺。
分析型環境:是指基于數據倉庫的各種主題數據分析,是提供數據展現服務的核心功能部分,如運營分析、資產分析、財務分析、人力資源分析。對應平臺包括BI決策支持平臺、數據倉庫、ETL。
知識型環境:是指企業整個數據治理的知識體系架構,而非傳統的企業管理或者某類專業知識管理,是提供數據治理能力的核心組成部分。數據治理知識可以實現知識驅動數據管理業務、驅動數據管理崗位、驅動數據應用的全面知識管理體系。
面向服務的集成架構:是指數據的采集、分發、集成以及業務重組等,是數據交換的核心功能部分,主要包括靜態數據交換管理、ETL、企業服務總線ESB、業務流程引擎BPM。
1.3.2 全方位重構數據標準體系徹底改善數據環境
企業內的數據可分為分析型數據(趨勢、計劃、指標數據等)、交易型數據、共享(主)數據、業務場景數據4大類,如圖1-8所示。

圖1-8 企業內的數據分類
數據的質量問題很大程度上取決于數據所處環境的狀況,因此需要從根本上打造一整套全方位的數據標準體系以確保數據質量的可控制性、可持續性。所謂的全方位就是指包括以上4大類型數據在內的數據標準體系,而非是只有主數據的數據標準體系。
數據標準體系內容包括數據管理組織、制度,流程、考核機制,數據安全、質量管理體系,數據分類、編碼體系,數據交換規范體系等,如圖1-9所示。

圖1-9 數據標準體系
1.3.3 構建全視角管控的靜態數據中心全面保障數據質量
一般我們會通過基本、組織和業務三個視角信息對數據進行描述。基本視角信息是對某條數據的基本特征信息的描述,組織視角信息是指某條數據在不同的組織范圍描述的不同信息,業務視角信息是指某條數據在不同的業務場景下描述的不同信息。
當然也可以從共享的角度去描述一條數據的信息,這就是我們常提到的主數據。
從全面解決數據質量問題的角度出發,構建360度全視角管控的靜態數據中心,對全部三類視角的數據質量進行管控才是最好的選擇。
全視角數據的描述包括基本、組織和業務三個視角的數據描述,以物資數據舉例,具體結構形式如表1-2所示。
表1-2 全視角數據描述

1.3.4 通過技術+行為的手段深層次保障數據質量
數據質量在數據治理中的分量不言而喻,但是目前保障數據質量的主流方法幾乎全是技術手段,主要有以下三種方法。
第一種方法,針對數據產生的源端進行控制。指通過針對屬性字段取值的格式、上下限、枚舉值、從屬關系、關聯關系等的判斷來進行數據質量的控制,這樣的方法可以解決大部分(70%左右)的數據質量問題,剩余的30%包括五花八門的錯別字,無意的類別錯放,人為的有意寫錯、放錯等。
第二種方法,針對數據倉庫的末端進行控制。這種方法已經隨著數據倉庫、BI的發展存在了多年,實際上就是ETL過程對數據質量的控制。雖然這種方法解決問題的比例甚至都達不到40%,但是在新的方法出現之前幾乎“橫行”世間近20年,屬于標準的針對末端的數據質量的控制。
第三種方法,也是針對數據存儲應用層(數據倉庫)的末端進行控制,當然這種方法就比較高級了,那就是采用AI(人工智能)技術,比ETL高級了很多,尤其是隨著數據中臺的興起,業界對其十分看好。其實AI技術對于數據質量的解決是需要通過長時間的自我學習才可以達到理想效果的,并且目前沒有太好的AI工具支撐,此方法還并未實用化。
純技術的手段并不能完全實現對數據質量的管控,因此我們需要從行為(行為約束)入手去深層次解決數據質量問題。
所謂行為約束,是指對數據采集端的人的行為的控制,比如數據新增過程中的審核也是行為約束的一種。最好的行為約束首先應該在源端,也就是針對數據維護操作的人我們要嚴加“防范”,確保每個人都能深入到屬性字段級別最準確地錄入相關的屬性取值,要確保專業的事由專業的人來做,而不是很多人希望的統一由一個人代勞維護所有或者某部分數據的信息,維護入口的統一不代表數據的統一和高質量,相反卻掩蓋了對數據的不專業導致的二次維護錯誤問題。
因此,需要在技術手段的基礎上開啟數據協同維護機制,強化數據源頭責任,強化過程行為約束,更深層次地管控數據質量如圖1-10所示。

圖1-10 數據維護行為約束
另外,眾多企業的企業信息化建設經歷了多年的發展,各業務系統中積累了大量的豐量(歷史)數據,對現存的歷史數據的清洗同樣適用技術+行為的手段,通過對歷史數據的全面梳理和規范,將質量有保證的數據準確發布到各業務系統中,確保各業務系統中歷史數據的準確。
1.3.5 構建日常數據質量監測體系持續確保數據質量
在前邊的內容中已經詳細介紹過數據質量不理想的問題,導致數據質量產生問題的因素有多種,但我們最好能打造一套針對數據質量的監測機制,把問題“扼殺”在搖籃階段。
2018年3月15日,中華人民共和國國家質量監督檢驗檢疫總局、中國國家標準化管理委員會發布了GB/T 36073-2018數據管理能力成熟度評估模型,此模型對企業的數據管理能力進行了分級,根據不同等級提出不同的改進、發展建議。但是這種評估成本較高,周期太長,甚至很多企業很多年才能評估一次。
為了確保數據質量的持續性良好,數據治理項目實施后需要構建一個基于大數據行為分析的數據質量監測平臺,而不是傳統意義的基于屬性字段級的技術驗證。平臺需要具備實時探知數據質量的能力,并且把數據質量量化展現,同時提供問題數據處理的通道。數據質量監測平臺的具體邏輯架構如圖1-11所示。

圖1-11 數據質量監測平臺的邏輯架構
由圖1-11可以看出,大數據行為的質量監測是對數據的一致性、完整性、合規性、冗余性、有效性和及時性6方面質量標準的深層次的大數據行為分析,此方式結合復雜邏輯的算法而非傳統的正則表達式等,最終通過圖和表的結合高效展現數據質量結果,提高數據質量的可視化效果。
1.3.6 構建基于場景的數據服務體系推進數據資產化管理
大數據時代的來臨使得數據的價值逐步顯性化,也被各企事業單位更加重視。數據資產管理當前也已經成為IT界的一門新興概念被廣泛研究。DAMA將數據資產管理(Data Asset Management,DAM)定義為規劃、控制和提供數據這種企業資產的一組業務職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方案和程序,從而控制、保護、交付和提高數據資產的價值。
數據作為一種“資產”,和傳統意義上所管理的資產并不相同,數據資產具備5大特征,即虛擬性、增值性、時效性、共享性、安全性,具體如圖1-12所示。

圖1-12 數據資產特性
數據資產的5大特征的核心是共享和價值,并且有時效性的共享服務價值會更高。目前企業內數據資產化管理還處在初級階段,長期以來對數據的私有化價值意識比較淡薄,企業數據資產化管理的路還很長,需要慢慢地從數據的共享服務開始讓大家享受到數據資產的紅利。
數據服務在企業內有多種形式,主要包括對人的數據服務、對系統的數據服務、對數據倉庫的數據服務等。
1)對人服務:統一查詢,單一視圖,如圖1-13所示。

圖1-13 數據查詢訪問
2)對系統的服務:雪花狀數據交換服務架構,如圖1-14所示。

圖1-14 雪花狀數據交換服務架構
3)對數據倉庫的服務:如圖1-15所示。

圖1-15 數據治理支撐數據分析和業務管理
1.3.7 構建基于過程的知識體系確保全面的數據治理能力
關于知識,很多人都認為應該只是知識密集型企業才會關心的,在數據治理行業只要簡單地知識轉移一下,能用好工具就可以了,甚至很多人認為數據治理一定要長期靠外力,企業自身的能力有限根本不可能治理好數據。
這是一個很大的誤區,數據治理可以借助外力,但一定不能長期借用外力。借用外力應該只是一個項目的過程,實施數據治理項目只是數據治理工作的起點,項目實施后未來長期的數據治理過程中如果繼續依靠外力,高昂的成本企業根本無法承受,其實也沒必要付出這個成本。
因此,企業具備數據治理的能力非常重要,那么企業應該具備什么樣的能力呢?根據多年的經驗總結,企業數據運維管理階段需要具備針對數據管理體系的拓展和完善能力,以便支撐未來企業發展后的數據擴展或管理變更的需求。
如何才能獲得這個能力呢?經驗告訴我們,能力需要有足夠多的知識支撐才可以具備,并且是全方位的知識,尤其是過程知識。針對數據管理體系的拓展和完善工作最關鍵的就是弄清來龍去脈以便延續以往的思路,防止標準體系的走偏和分裂。
因此要做好此工作需要長期積累大量的過程知識,構建基于過程的知識收集和推送體系是關鍵中的關鍵。具體的過程知識體系結構如圖1-16所示。

圖1-16 數據知識收集和推送體系