- 數據治理:工業企業數字化轉型之道
- 祝守宇
- 5380字
- 2020-11-24 11:37:43
第2章
工業企業數據治理概述
對工業企業來說,數據越來越重要,但大部分企業的數據治理水平有待提高。本書涉及數據治理的內容多、范圍廣,其中概念和術語眾多,為了便于讀者理解,避免產生歧義,并且對數據治理的內容有總體的認識,本章先簡單介紹一下數據治理的相關概念及主要內容。
2.1 數據治理的相關概念和定義
1. 數據與數據管理
本書中所指的數據是指所有能輸入計算機并被計算機程序處理的符號的介質的總稱,是用于輸入計算機進行處理,具有一定意義的數字、字母、符號和模擬量等的通稱,是組成信息系統的最基本要素。
數據管理的概念是伴隨20世紀80年代數據隨機存儲技術和數據庫技術的使用,計算機系統中的數據可以方便地存儲和訪問而提出的。2015年,國際數據管理協會在《DAMA數據管理知識體系指南(原書第2版)》中將其擴展為11個管理職能,分別是數據治理、數據架構、數據建模與設計、數據安全、數據存儲與操作、數據集成與互操性、文件和內容管理、參考數據和主數據管理、數據倉庫和商務智能、元數據管理、數據質量管理。
數據管理是數據資源獲取、控制、價值提升等活動的集合,具體指通過規劃、控制與提供數據和信息資產職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方法和程序,以獲取、控制、保護、交付和提高數據和信息資產價值。
2. 狹義數據治理與廣義數據治理
(1)數據治理。
不同的機構對數據治理的定義不一樣。
IS/IEC、TRO38505-2:2018對數據治理的定義:數據治理是關于數據采集、存儲、利用、分發、銷毀過程的活動的集合。
GB/T4960.5-2018對數據治理的定義:數據治理就是數據資源及其在應用過程中相關管控活動、績效和風險管理的集合。
國際數據管理協會(DAMA)對數據治理的定義:數據治理是指對數據資產管理行使權力和控制的活動集合(規劃、監督和執行)。
國際數據治理研究所(DGI)對數據治理的定義:數據治理是一個通過一系列信息相關的過程來實現決策權和職責分工的系統,這些過程按照達成共識的模型來執行,該模型描述了誰能根據什么信息,在什么時間和情況下,用什么方法,采取什么行動。
(2)狹義的數據治理。
狹義的數據治理指數據資源及其應用過程中相關管控活動、績效和風險管理的集合,保證數據資產的高質量、安全及持續改進。在本書第6章“數據管控”中所談的數據管控即取其狹義。狹義的數據治理的驅動力最早源自兩個方面:
內部風險管理的需要,風險包括數據質量差影響關鍵決策等。
為了滿足外部監管和合規的需要,比如薩班斯-奧克斯利法案、巴塞爾I/巴塞爾協議、健康保險流通與責任法案(HIPAA)等。
但隨著全球越來越多的企業認識到信息資產的重要性和價值,在過去幾年中,數據治理的目標也在發生一些轉變。除滿足監管和風險管理外,如何通過數據治理來創建業務價值備受關注。
(3)廣義的數據治理。
廣義的數據治理的含義大于狹義數據治理,包括數據管理和數據價值“變現”,具體包含數據架構、主數據、數據指標、時序數據、數據質量、數據安全等一系列數據管理活動的集合。
本書取“廣義的數據治理”的概念,后面所用到的“數據治理”的概念都指廣義的數據治理。
3. 數據資產與數據資產管理
(1)數據資產。
數據資產是指由企業擁有或者控制的,能夠為企業未來帶來經濟利益的,以物理或電子的方式記錄的數據資源,如文件資料、電子數據等。在企業中,并非所有的數據都構成數據資產,數據資產是能夠為企業產生價值的數據資源。在這個定義中包含3個要素。
擁有或者控制:除企業內部的數據外,通過各種渠道合法獲取的外部數據也屬于企業數據資產。
帶來經濟價值:體現了資產的經濟屬性,未來能給企業帶來經濟利益。
數據資源:數據資產包括各種以物理或電子方式記錄的數據、軟件、服務等。
(2)數據資產管理。
數據資產管理是指規劃、控制和提供數據及信息資產的一組業務職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保護、交付和提高數據資產的價值。數據資產管理需要充分融合業務、技術和管理,以確保數據資產的保值、增值。
2.2 數據的分類
工業企業數據的分類維度有很多種,目前業內還沒有特別通用的標準,通常可以按照數據對象劃分,也可以按照數據結構來劃分,還可以按照數據庫類型來劃分,等等。下面介紹的是常見的4種分類方式。
1. 按照數據對象劃分
按照數據對象,工業企業數據可以被分成如下5類。
(1)參考數據。
參考數據是指對其他數據進行分類和規范的數據,如國家、地區、貨幣、計量單位等產業通用的數據及各產業特色基礎配置數據。為了簡化,有的企業稱這類數據為配置型主數據,也有的企業稱這類數據為通用基礎類數據。它是相對穩定、靜態的數據,基本上不會變化,往往通過系統配置文件給予規范并固化在信息管理系統中。
(2)主數據。
主數據是指滿足跨部門業務協同需要的、反映核心業務實體狀態屬性的基礎信息。
主數據是用來描述企業核心業務實體的數據,是企業核心業務對象、交易業務的執行主體,是在整個價值鏈上被重復或共享應用于多個業務流程、跨越多個業務部門和系統、高價值的基礎數據,也是各業務應用和各系統之間進行數據交互的基礎。從業務角度看,主數據是相對固定、變化緩慢的,但它是企業信息系統的神經中樞,是業務運行和決策分析的基礎,如供應商、客戶、企業組織機構和員工、產品、客戶、供應商、物料等主數據(見《數據資產管理實踐白皮書(4.0版)》)。
(3)業務活動數據。
業務活動數據(又稱交易數據)是指在業務活動過程中產生的數據,是企業日常經營活動的直接體現,也是圍繞主數據實體產生的業務行為和結果型數據,如采購訂單、銷售訂單、發票、會計憑證等數據。業務活動數據存在于聯機事務處理系統中(OLTP系統),具有瞬間生成和動態的特點。
(4)分析數據。
分析數據(又稱統計數據、報表數據或指標數據等)是組織在經營分析過程中衡量某一個目標或事物的數據,一般由指標名稱、時間和數值等組成。
(5)時序數據。
時序數據是指時間序列數據。它是按時間順序記錄的數據列,在同一個數據列中的各個數據必須是同口徑的,要求具有可比性。在工業企業中,實時數據是時序數據的一種,如設備運行監測類數據、安全類監測數據、環境監測類數據。
2. 按照數據的存儲形式劃分
按照數據的存儲形式,工業企業數據可以被分為結構化數據、非結構化數據、半結構化數據(下面的名詞解釋來自《管理科學技術名詞》)。
(1)結構化數據。
結構化數據是指數據元素之間具有統一且確定關系的數據。它由明確定義的數據類型組成。結構化數據的一般特點是數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。結構化數據的分析更為便利,且存在成熟的分析工具。
(2)非結構化數據。
非結構化數據是指數據元素之間沒有統一和確定關系的數據。它是具有內部結構,但不通過預定義的數據模型或模式進行結構化的數據,如各種格式的圖片、視頻等。非結構化數據占企業全部數據的80%以上,但直接分析非結構化數據得有很強的專業性。
(3)半結構化數據。
半結構化數據是指數據元素之間的關系介于結構化數據和非結構數據之間的數據。它是非關系模型的、有基本固定結構模式的數據,例如日志文件、XML文檔、JSON文檔、E-mail等。
3. 按照數據庫的類型劃分
按照數據庫的類型,工業企業數據可以被分為關系型數據庫、非關系型數據庫、圖數據庫、時序數據庫。
(1)關系型數據庫。
關系型數據庫是采用關系數據模型的數據庫系統。關系數據模型實際上是表示各類實體及其之間聯系的由行和列構成的二維表結構。一個關系數據數據庫由多個二維表組成。表中的每一行為一個元組(或稱一個記錄),每一列為一個屬性。屬性的取值范圍被稱為域。對關系型數據庫進行操作通常采用結構化查詢語言(SQL)(見《管理學大辭典》)。
(2)非關系型數據庫。
非關系型數據庫是對不同于傳統的關系數據庫的數據庫管理系統的統稱。和關系型數據庫相比,兩者存在許多顯著的不同點,其中最重要的是非關系型數據庫使用NoSQL而不使用SQL作為查詢語言。其數據存儲可以不需要固定的表格模式,也經常會避免使用SQL的JOIN操作,一般有水平可擴展性的特征(來自維基百科)。
(3)圖數據庫。
圖數據庫是以圖結構來表示和存儲信息的數據庫(見《計算機科學技術名詞》)。
(4)時序數據庫。
時序數據庫是指時間序列數據。它是按時間順序記錄的數據列,在同一個數據列中的各個數據必須是同口徑的,要求具有可比性。時序數據可以是時期數,也可以是時點數。
4. 按照權屬類型劃分
按照權屬類型,工業企業數據可分為私有數據和公有數據。
(1)私有數據。
私有數據是指有明確歸屬的數據,歸屬方為可決定數據使用目的的自然人、法人或其他組織。如私人數據、企業數據等。
(2)公有數據。
公有數據指具有公共財產屬性且可被公眾訪問的數據,如天氣數據、人口數據等。
2.3 數據治理的頂層架構
企業中不同層級的人對數據治理的關注點不一樣,因此各自的視圖也不一樣。下面從管理者視圖來看數據治理的頂層架構。
數據治理的管理者視圖可以概括為“五域模型”,即管控域、過程域、治理域、技術域、價值域,如圖2-3-1所示。

圖2-3-1 五域管理視圖
企業在開展數據治理之前,首先要基于企業戰略和IT戰略制定數據治理的戰略目標,在明確戰略目標的基礎上再細化“五域模型”內容。
(1)管控域:在數據治理戰略指導下制定企業數據治理組織,明確組織的責、權、利、崗位編制及技能要求。一般在大中型企業中會設立由企業高層領導及相關專家組成的數據治理委員會,審批數據治理相關的重大決策,并制定數據治理的相關制度、流程,建立數據認責及績效考核機制,以支撐數據治理活動。
(2)治理域:是數據治理的主體,明確數據治理的對象和目標。根據數據資產的構成,企業數據治理又分為主數據治理、交易數據治理和數據指標治理。
(3)技術域:數據治理的支撐手段,提供數據治理所需的數據架構、治理工具平臺,包括元數據管理、主數據管理、數據指標管理、數據模型管理、數據質量管理、數據安全管理等功能模塊。
(4)過程域:是數據治理的方法論。數據治理過程包括評估與分析、規劃與設計、實施的PDCA循環(即Plan、Do、Check和Action循環,也稱戴明環)。在評估與分析階段,要評價現有數據治理的成熟度、風險及合規性,業務對數據治理的需求。在規劃和設計階段,要明確數據治理的目標和任務,制定數據治理的相關制度和流程,設計數據標準、數據模型、數據架構及數據治理的實施路徑。在實施階段,要制定數據治理的相關制度、流程細節,選擇合適的數據治理工具并通過定制化開發來滿足數據治理要求。
(5)價值域:數據治理的目標就是通過對數據資產的管控,挖掘數據資產的價值,并通過數據的流動、共享、交易,實現數據資產的變現。具體包括以下3個方面:
數據價值:對數據價值進行財務建模及數據價值評估的過程。
數據共享:通過實現信息整合和分發機制,支持跨業務、跨部門、跨行業、跨企業的信息流通和共享。
數據變現:通過數據的共享和交易,將數據轉變成財務意義上的資產。
2.4 數據治理的核心內容
完整的數據治理包括戰略、組織、制度、流程、績效、標準、工具及數據價值、數據共享、數據變現。其中數據價值、數據共享及數據變現等不是本書的討論重點,這里就不贅述了。
1. 戰略
數據治理的首要任務是制定數據治理戰略目標,否則缺乏目標和行動綱領,數據治理難以開展。企業的信息化是為了服務于業務,因此,企業的信息化戰略必須匹配業務戰略。數據戰略是信息化戰略的重要組成部分,企業要清晰地定義企業數據治理的使命、愿景,中長期目標及行動計劃,用以指導企業數據治理。企業數據戰略一般根據IT戰略的制定而制定,隨著IT戰略的修訂而修訂,由企業的信息化負責人及業務負責人共同主導制定。
2. 組織
建立合適的數據治理組織是企業數據治理的關鍵。數據治理的組織建設一般包括組織架構設計、部門職責、人員編制、崗位職責及能力要求、績效管理等內容。
3. 制度
企業的數據治理必須要有相關制度,否則無法可依,再好的技術工具也沒有用。因此,建立完善的數據治理制度很重要。企業的數據治理制度通常根據企業的IT制度的總體框架和指導原則制定,往往包含數據質量管理、數據標準管理、數據安全管理、數據績效管理等制度,以及元數據管理、主數據管理、交易數據管理、數據指標管理等辦法及若干指導手冊。
4. 流程
制定數據治理的流程框架及流程也是數據治理的重要工作。數據治理流程主要包括從數據的生產、存儲、處理、使用、共享、銷毀全生命周期過程中所遵循的活動步驟,以及元數據管理、主數據管理、數據指標管理等流程。
5. 績效
要使數據治理的體系運轉好,必須要有好的激勵體系。數據績效管理包括數據管理指標、數據認責機制、數據考核標準、數據管理的獎懲機制,以及績效管理過程的一系列活動集合。
6. 標準
數據標準是實現數據標準化、規范化的前提,是保證數據質量的必要條件。數據標準一般分為元數據標準、主數據標準、交易數據標準、數據指標標準、數據分類標準、數據編碼標準、數據集成標準等內容。數據標準管理是規范數據標準的內容、程序和方法的活動,分為標準制定、標準實施和控制、標準修訂等。
7. 工具
數據治理管理工具包括數據架構工具、元數據管理工具、數據指標管理工具、主數據管理工具、時序數據管理工具、數據交換與服務工具、質量管理工具和安全管理工具等。
本章精要
本章主要介紹了數據治理相關的重要概念和內容,其中簡要介紹了數據治理的核心內容,讓讀者對這些概念有清晰的了解,并對數據治理內容框架有初步的認識。