- 主數據驅動的數據治理:原理、技術與實踐
- 王兆君 曹朝輝 王鉞
- 8822字
- 2019-12-09 14:53:39
1.2 數據資產和數據管理
1.2.1 數據資產的概念和重要性
數據是一種未經加工的原始資料,是對客觀事物的邏輯歸納,用符號、字母等方式對客觀事物進行直觀描述。數據是進行各種統計、計算、科學研究或技術設計等所依據的數值(是反映客觀事物屬性的數值),是表達知識的字符的集合。信息是數據內涵的意義,是數據的內容和解釋。數據經過解釋并賦予一定的意義之后,便成為信息。
企業所應用的信息系統和數據倉庫中存儲了大量生產經營活動中的基礎數據和業務數據,例如客戶數據、BOM數據、訂單數據等,通過ERP、CRM等管理信息系統的加工處理,這些數據將轉化為信息,用以支持企業各層級的管理決策,提高現有生產資源的利用率,充分發揮資源的整合效應,促進提高管理效率、降低經營費用、提高勞動生產率、提高客戶滿意度等,從而間接為企業帶來經濟效益。
信息資產是由企業擁有或者控制,能夠為企業帶來未來經濟利益的信息資源。這一定義中包含三個關鍵要素。
? 擁有或者控制:表明信息資產的獲取并不局限于企業內部,除業務系統產生的數據,通過各種渠道合法獲取并控制的外部數據也屬于企業信息資產的范疇。
? 帶來未來經濟利益:體現了信息資產的經濟屬性。信息資產的本質是將信息作為一種經濟資源參與企業的經濟活動,減少和消除企業經濟活動中的風險,為企業的管理控制和科學決策提供合理依據,并預期給企業帶來經濟利益。
? 信息資源:表明了信息資產的具體形態。根據BS 7799以及GB/T 20984—2007《信息安全風險評估規范》,信息資產包括各種以物理或電子方式記錄的數據、軟件、服務、人員和其他類別等。由于數據是信息在企業中的主要表達形式,因此,數據資產成為信息資產中最重要的組成部分。
數據的直接效用是將企業的各項生產經營活動客觀形象地記錄下來,實現可計量、可存儲、可復用的管理目標。數據的間接效用體現在以下三方面:一是通過參與市場競爭,提高服務水平和營銷能力來增加收入;二是通過改進業務流程或提高分析效率來降低運營、人力等各項成本;三是以真實完整的信息助力企業管理者的科學管理與決策。有效的管理和使用數據可以減少或消除企業經濟活動中的風險,為企業管理控制和科學決策提供合理依據,給企業帶來相關的經濟效益。
《大數據時代》的作者維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)指出:“在亞當·斯密論述18世紀勞動分工時所引用的著名的大頭針制造案例中,監督員需要時刻看管所有工人,進行測量并用羽毛筆在厚紙上記下產出數據,而且測量時間在當時也較難把握,因為可靠的時鐘尚未普及。技術環境的限制使古典經濟學家在經濟構成的認識上像是戴了一副墨鏡,而他們卻沒有意識到這一點,就像魚不知道自己是濕的一樣。因此,當他們在考慮生產要素(土地、勞動力和資本)時,信息的作用嚴重地缺失了。”由此可知,當時數據獲取、存儲和應用的成本過高是信息資產被忽視的重要原因。但隨著技術的不斷發展,數據的存儲密度大大提高,大量企業內部信息通過信息系統被便捷地記錄和使用,管理者意識到數據所創造的價值已遠遠大于其成本。
在企業信息化水平不斷提高、業務數字化程度日益加深的今天,幾乎所有機構都卷入到數據及其處理(數據收集、存儲、檢索、傳輸、分析和表示)的浪潮中,數據已成為重要生產要素和無形資產。2012年年初的達沃斯世界經濟論壇上,一份題為《大數據,大影響》(Big Data, Big Impact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。
數據資產作為信息資產的主要組成部分,具有以下基本特征。
? 共享性:一個個體對數據的使用不會影響另一個體對其使用,數據的傳播并不是數據的轉移,而是數據的復制,因此,數據資產具有共享性。但由于企業數據作為一種重要資產,其共享性只體現于企業內部部門、合作伙伴或員工之間。
? 增值性:眾所周知,物理資產會在使用的過程中發生損耗,造成價值的降低,但是,隨著時間的推移,數據量的積累反而會使得數據資產的價值增加,這就是數據資產的增值性。數據資產作為信息的載體,其傳播和使用的過程也正是其擴張和創新的過程,結合先進的管理思想進行有效的組合、分析和挖掘,將產生更多有價值的信息。
? 時效性:數據資產的特征來源于數據和信息的屬性。信息具有時效性,同樣地,數據資產也具有時效性。對于一些流動性強的信息而言,如果不能及時開發利用,其價值就會大打折扣,例如市場類信息。
? 低安全性:一般而言,數據資產經常處于公共的介質或者處于流動狀態,數據資產的復制成本較低,從而導致企業擁有和控制數據資產的安全性很差,這正是導致信息資產風險的一個重要因素。
數據資產的重要性體現在以下方面。
? 數據是一種參與企業生產經營活動的經濟資源。有效地管理和使用數據可以減少或消除企業經濟活動中的風險,為企業管理控制和科學決策提供合理依據,給企業帶來相關的經濟效益。
? 數據是支持企業發展戰略的重要資源,是企業進行分析和決策的重要基礎。有效地挖掘和利用海量數據已經成為企業高效發展的關鍵推動力,如何利用數據創造價值,實現決策分析,對提升企業業務效率、綜合競爭實力以及加速企業發展具有重要的意義。
? 數據是現代企業最大的價值來源,數據資產具有較高附加值。有效應用數據資產往往能創造出巨大的潛在價值,其所帶來的經濟效益不可預估。利用規范的、真實的數據有助于企業進行業務創新、提供更優質的服務、提升客戶忠誠度、減少決策分析和報表統計所需的工作,提升企業整體價值。
? 數據資產同時也是最大的風險來源。數據固然有技術的成分,但數據更是一個管理問題,而且是一個綜合管理問題。數據管理不善,通常會導致業務決策的效果不佳,更可能面臨違規和數據失竊。
? 數據資產是動態變化發展的,而不是像物理資產那樣固定不變,一般來說,它的價值會隨著數據生命周期的發展而增加。
1.2.2 數據資產的構成
1. 數據的層次模型
根據企業中數據的特征、作用以及管理需求的不同,可根據馬爾科姆·奇澤姆(Malcolm Chisholm)的分類方法,將企業數據分為6個層次,分別為元數據(Meta Data)、引用數據(Reference Data)、企業結構數據(Enterprise structure Data)、業務結構數據(Transaction structure Data)、業務活動數據(Transaction Activity Data)和業務審計數據(Transaction Audit Data),如圖1-1所示。

圖1-1 數據層次結構
1)元數據
元數據是系統中最基礎的數據,是關于數據的數據,或者說是用于描述其他數據的結構數據。元數據描述數據定義、數據約束、數據關系等。在物理模型中,元數據定義了表和屬性字段的性質。
由于元數據是其他數據依存的基礎,元數據管理在企業數據管理中起關鍵性的作用。元數據描述了系統中的表和屬性字段的性質,所以應該在數據庫設計階段進行準確的定義,并在數據庫的整個運行過程中保持不變。元數據的改變將從底層改變其他數據的結構,對整個系統帶來廣泛的影響。例如,如果將系統中客戶信息的姓氏字段從20字節增長為40字節,則系統中對客戶信息以及與客戶信息相關的業務信息、財務信息的查詢、顯示以及報表等諸多功能都將隨之發生變化。
2)引用數據
引用數據定義了元數據的可能取值范圍,也被稱為屬性值域。例如,月份的引用數據為(1—12月)十二個屬性值,國家的引用數據為世界上現有的200多個國家和地區。引用數據的正確、完備和統一是其他數據質量的保證,可大大提升業務流程和數據分析的準確性和效率。引用數據的使用貫穿于企業的各類IT應用,是提供集成、共享、全面和準確的信息服務的重要支持。除此之外,引用數據是對數據分類的主要標準。例如,電子商務平臺的訂單狀態可以分為待付款、待發貨、待收貨、已收貨和已撤銷等,不同狀態的訂單將進入相應的業務流程。
在企業的長期運營中,時常會面臨引用數據的變化。例如,公司合并會使相關的股票代碼發生變化,如果沒有對股票代碼的引用數據進行及時修改,可能造成相應的業務信息發生錯誤,甚至為企業帶來直接的經濟損失。
引用數據的使用能夠滿足各類系統應用對相同信息的不同粒度或不同形式的應用需求。將國內客戶按照收貨地址的省份進行分類,而省份屬性的引用數據即為我國34個省級行政區域。但實際應用會根據輸出格式的要求顯示省份的全稱或簡稱,或者按照數據分析的需求,將省份進一步按照華東、華北、華南、華中等大區進行劃分。分散的企業IT應用很難實現引用數據的統一,冗余和沖突的引用數據阻礙了信息的共享,使得管理者無法看到企業數據的全貌,因此,引用數據的管理是主數據管理中的重要環節,需要予以充分的重視。
3)企業結構數據
企業結構數據描述了企業數據之間的關系,反映了現實世界中的實體間的關系或流程,如會計科目、組織架構和產品線等。這些數據是多條主數據的集合,共同描述了企業中的層次結構關系,是企業開展業務和進行管理的依據。例如,企業組織結構由組織機構、人員、崗位等主數據組成,但在不同行業之間,企業結構化數據的結構和內容都有很大差異。
4)業務結構數據
業務結構數據描述了業務的直接參與者,產品數據和客戶數據都是典型的業務結構化數據。掌握業務結構化數據是業務發生的必要條件。顯然,當向客戶出售產品時,需要提前了解產品和客戶;在系統中錄入產品銷售記錄時,系統中也必須存在對應的產品和客戶數據。
業務結構數據描述的數據實體通常由一個唯一的數據編碼以及大量的屬性信息構成,因此,數據編碼的生成規則成為此類數據管理的關鍵。客戶的姓名可能會改變,產品名稱在其生產流程中也在不斷變化,這都為數據編碼工作帶來了挑戰。業務結構化數據應用于系統的一系列業務流程,不同的業務部門所使用的數據屬性也不盡相同,因此,針對業務內容產生不同的數據視圖(圖1-2)是業務結構化數據管理的另一個重點。

圖1-2 不同業務的數據視圖
5)業務活動數據
業務活動數據記錄了企業運營過程中產生的業務數據,其實質是主數據之間活動產生的數據,如客戶購買產品的業務記錄、工廠生產產品的生產記錄。業務活動數據是企業日常經營活動的直接體現,也是早期企業自動化的關注重點。正如前文所述,業務活動數據大大依賴前幾層數據的質量。如果企業只關注于記錄業務,而忽略了基礎數據的維護,將造成系統內數據的混亂,從而影響整個企業的生產運營。業務活動數據存儲于企業的聯機事務處理系統(On-Line Transaction Processing, OLTP),這些系統應用提供了業務活動數據高容量、低延遲的訪問和維護服務。
6)業務審計數據
業務審計數據記錄了數據的活動。例如,對客戶信息進行修改、對業務進行刪除,這些變化都將被記錄在系統中,以便日后追溯。利用業務審計數據可以對數據按照時間維度進行分析,把握企業運營的趨勢。同時,一些法律法規也對業務審計數據做出了要求,特別是對銀行等關鍵行業。
2. 數據的域模型
數據層層次模型抓住了不同層次數據量、變化頻度和生命周期的差異,對數據管理有一定的指導意義。但該模型提出較早,面對當前企業數據管理的具體要求,存在以下不足。
? 隨著大數據和商務智能(Business Intelligence, BI)的發展,由基礎的業務數據衍生出大量的分析數據,該數據層級未能在原始的數據層次模型中有效表達。
? 在實際的數據管理系統中,相對慢變的元數據、引用數據、企業結構數據、業務結構數據通常作為主數據來管理;業務活動數據和業務審計數據通常屬于在線事務處理(Online Transaction Processing, OLTP)的范疇;分析數據則和在線分析處理(Online Analytical Processing, OLAP)關系緊密。數據的層次模型未能對上述數據與信息系統之間的對應關系進行表達。
因此,在數據層次模型的基礎上,提出數據的域模型,根據企業中數據的特征、作用以及隸屬關系的不同,將數據資產劃分成主數據、業務數據、分析數據三個主要的數據域,如圖1-3所示。

圖1-3 數據域結構
? 主數據域:主數據是指具有高業務價值的、可以在企業內跨越各個業務部門被重復使用的數據,是單一、準確、權威的數據來源。主數據域包含元數據、引用數據、企業結構數據、業務結構數據等內容。主數據依賴于靜態的關鍵基礎數據,關鍵基礎數據往往是標準的、公開的,如國家、地區、貨幣等。這些數據相對慢變,但對企業具有全局的重要作用。
? 業務數據域:業務數據包含業務活動數據和業務審計數據,業務數據是在交易和企業活動過程中動態產生的,通常具有實時性的要求。
? 分析數據域:分析數據是對業務數據梳理和加工的產物,相對業務數據而言,實時性的要求較低,通常按照分析的主題進行組織和管理。同時隨著大數據技術的發展,在分析數據域中除了傳統的結構化數據之外,有大量半結構和非結構化數據引入。
在上述數據資產之中,主數據是上層業務數據、分析數據組織和管理的基礎,相對于上層數據具有穩定、數量少的特點,但這些關鍵數據的影響范圍廣泛。業務數據和分析數據與企業的運營決策直接相關,其數據質量嚴重依賴底層主數據的質量。因此,主數據是企業數據資產的根基,只有健康的樹根才能支撐得起大樹的繁枝茂葉、累累碩果。
1.2.3 數據管理的內容、現狀和問題
1. 數據管理的內容
按照國際數據管理協會(DAMA)的定義,數據管理(DM)是規劃、控制和提供數據及信息資產的一組業務職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保護、交付和提高數據和信息資產的價值。
如同其他資產一樣,數據資產也具有生命周期,企業管理數據資產,就是管理數據的生命周期。有效的數據管理開始于數據的獲取之前,企業先期制定數據規劃、定義數據規范,以期獲得實現數據采集、交付、存儲和控制所需的技術能力。
數據管理的目標是“控制、保護、交付和提高數據和信息資產的價值”,因此,數據質量和數據安全是貫穿數據生命周期的管理重點。數據質量決定了數據滿足數據消費者期望的程度,直接影響著數據資產的價值;而隱私和安全則是合法使用數據的前提,與數據的產生、獲取、更新和刪除的全過程密切相關。
按照圖1-3所示的數據資產的分類方法,數據管理也可按照所針對的數據域劃分為主數據管理、業務數據管理、分析數據管理。因為三種數據資產的特征不同、用途不同,管理的目標和方法也存在一定的差異。
? 主數據管理:創建和維護企業中具有高業務價值、可在各個業務部門和職能領域之間被重復使用的數據,為業務開展和數據分析提供基礎。重點關注數據的一致性、完整性、相關性和精確性。
? 業務數據管理:管理企業業務活動中數據的產生和維護過程,為跨系統的業務流轉和協同提供基礎。重點關注多個業務系統之間的數據整合、清洗、標準化,以及數據的有效分發和同步。
? 分析數據管理:組織和管理數據,為企業運營的分析和決策提供支持。將不同來源、不同形態的數據資源,轉換成為一組不同結構的專題數據,以便匯總、描述、預測和分析。在這里,相同的信息可能會以多種不同的數據形態存儲和呈現,重點關注數據的一致性、完整性、可用性。
上述三種數據管理都涉及對數據生命周期的過程管理,都涉及數據質量、數據安全和隱私。其中,主數據管理是數據資產管理的基礎,業務數據管理更強調數據的流通價值,分析數據管理更關注數據提供的洞察能力。
2. 數據管理的現狀和問題
過去的10年間,國內大部分領先企業都陸續建設了ERP系統、資產管理系統、人力資源系統、供應鏈管理系統、物流系統、電子商務系統、集成門戶、協同辦公、決策支持系統等各類信息化系統。這些系統通常獨立建設,獨立運行,分別服務于企業內不同的職能部門。由于業務和IT技術發展的漸進性,企業的各個業務系統都經歷了從無到有,不斷擴展和升級的過程,從而形成了一個又一個的業務豎井。業務系統的構建更多是以項目為中心,從下而上地構建,往往缺乏整個企業范圍內的統一規劃,從而使得一些需要在各個業務中共享的核心數據被分散到了各個業務系統進行分別管理。
在這個以應用為中心的信息化進程中,由于企業各部門在開發或引進各種應用系統時都是單一地追求各自的功能實現,沒有從全局視角進行業務數據流分析和相互協調,沒有遵循統一的數據標準和規范,各個部門都按“自產自用”的模式管理數據資源,導致數據不一致和數據冗余問題與日俱增。
例如,在某個系統的供應商目錄中,一個供應商可能稱為“XX(中國)有限公司”,而另一個系統的客戶目錄中可能稱其為“XX公司”,而這樣的錯誤往往來源于負責此公司的銷售和采購業務人員錄入習慣的不同;不同的開發人員,甚至同一位開發人員在不同的任務中,對同一個數據對象的命名也可能發生不一致,如“供應商代碼”“供應商號”“供應商編號”等。同時,企業內部的業務區隔或行政分化也在不斷地制造著企業數據交互的斷層。圖1-4展示了某公司內信息系統中客戶數據的常見問題,包括編碼不一致、元數據不一致、數據不一致和數據缺失等。

圖1-4 常見數據問題
由此可見,現階段以職能和應用為中心的企業信息化建設在帶來數據高速增長的同時,引發諸多數據管理的問題。這些海量的、分散在不同系統中的數據資產呈現出數據量大、涉及領域廣、結構復雜的特點,導致了數據資源利用的復雜性和管理的高難度。具體而言,大型企業在數據管理方面通常存在如下問題。
1)缺乏數據管理的體系規劃
企業缺乏全面的、涵蓋所有應用系統的數據管理體系規劃,對數據管理策略、組織模型和流程模型沒有清晰的目標和定義,沒有可執行的數據治理實施階段和步驟,同時也缺乏對整個數據生命周期中數據的處理、校驗、生效、變更、分布,以及相關的策略、模型、流程和方案。
2)缺乏有效的數據管理組織
企業缺乏高層認可的數據管理組織,無法統一建立基礎數據管理標準,相應的數據監督管理措施無法得到落實,也沒有建立數據管理及使用考核體制,無法保障已經建成的數據管理標準和內控體系有效地執行。
各信息系統的建設和管理職能分散到各職能部門或各單位,數據業務質量審核主要由各業務職能部門分頭負責,缺乏完善的基礎數據質量管控流程和管理規范,缺乏數據管理組織和崗位職責的界定體系,各職能部門或各單位中的數據管理的職責分散,權責不明確。同時,跨業務部門的基礎數據質量溝通機制不夠完善,缺乏清晰的跨業務的基礎數據管控規范及標準,影響基礎數據質量,統計分析口徑不統一,導致數據管理的相關標準、規范無法有效地執行和落實。
3)缺乏IT工具的支持
企業數據管理的業務開展缺乏IT系統的支持,手工處理占主要部分,基礎數據完全采用人工方式收集、整理,存在工作效率低下、錯誤率高等問題。數據標準的執行主要靠人為因素,無法實現全面、嚴格的數據質量控制和審計。同樣的工作要在不同的系統中重復操作,數據管理的工作煩瑣,效率低下。
4)缺乏對數據管理的正確認識
現階段,多數企業錯誤地認為數據管理是單純的技術工作,應由信息系統的開發人員完成,基本不需要業務人員。實際上,信息化進程中的數據管理工作是在兩類人員的密切合作下推進的。缺少業務人員的參與,或業務人員與開發人員溝通不暢、矛盾分歧都會造成信息系統開發效率低、質量差等問題,最終影響數據資產質量。
由于在數據管理上存在上述認識、規劃、組織和管理工具上的缺陷,導致各類業務系統往往各自為政,難以互聯互通,數據不一致和數據冗余問題與日俱增。海量的數據資產往往無法得到更高層次的利用,不能及時發現潛在的問題。最終,企業缺乏完善、統一的基礎數據來源和技術標準,缺乏統一、可信的基礎數據源,給企業的發展帶來了極大的障礙。企業在信息化的進程中,正在面臨“數據資產管理危機”。具體表現如下。
? 信息孤島:企業中絕大部分系統處于分散、獨立的狀態,各系統獨立運行,系統中的數據標準自成體系,系統與系統之間無法進行業務交互和數據交換,導致數據只在系統內部有效,不能與其他系統的相關數據進行關聯分析。
? 數據標準不統一:數據的標準包括了企業核心業務定義、數據模型、數據屬性、參考數據、指標等,也包括了行業內部的數據標準。企業在各業務系統建設時如果缺少統一的數據標準,會導致開發和運維人員難以正確理解數據模型相關含義,致使企業不同業務系統集成和數據共享困難。
? 數據質量差:在業務系統運行過程中,由于各類原因,會導致數據冗余、數據不一致、數據缺失等問題,例如計量單位不一致、編碼不一致、同一實體多條記錄等數據質量問題。這些問題數據如果不及時發現并處理,就會影響企業的運營,阻礙業務發展,甚至造成嚴重的后果。對于后續的數據分析,也會因為這些問題數據的存在而被干擾,分析結果將受其影響,誤導管理層決策。
當前,企業信息化建設正處于從應用為中心向數據為中心轉化的關鍵時期,企業面臨數據整合的挑戰不斷增長且日益嚴峻,低質量的數據資產已經成為在信息化與業務深度融合過程中的關鍵制約因素。數據資產一旦處于混亂無序狀況,其重要性就會降低,價值會大打折扣,甚至會影響企業的利益和決策。
Experian發布的“2018年全球數據管理研究”指出,僅有24%的企業使用專門的平臺來進行企業級的數據質量管理;29%的企業存在數據質量管理,但是僅限于部門級別;23%的企業有計劃在未來開展數據質量管理;但依然有24%的企業沒有任何的數據質量或者數據治理計劃。企業普遍認為當前數據中有三分之一是不準確的,其中有69%的企業認為不準確的數據將會影響他們給用戶提供的服務。在已經部署數據質量管理項目的企業中,有42.2%的企業使用手動編碼的方式進行數據質量管理,只有28.7%的企業使用了廠商提供的專業數據質量工具進行管理。
總體來說,國內企業目前數據管理都處于初級階段,很多企業的數據資產都或多或少地面臨著如下問題。
? 數據不完整:缺少關鍵基礎數據,部分輔助數據缺失或不全面,歷史數據丟失嚴重。
? 數據分散、不一致:企業內的數據入口眾多,同一類數據采用的標準、規則不一致。
? 數據質量低:大量數據基本上“堆積”在一起,缺少必要的數據管理,集成數據的可用性差,質量比較低。
? 數據共享集成成本高:數據標準不統一、分散、可用質量差,數據核對、清理、映射的工作量巨大,導致共享集成和數據分析的成本非常高。
? 數據經濟效益不顯著:數據決策分析的結果可靠性差,投入與產出不匹配。
因此,數據資產的質量已經提升到企業的核心戰略層面,成為一項復雜而艱巨的系統工程。數據的應用與數據質量是相輔相成、相互推動的關系,對數據資產進行治理,是提升企業數據管理與應用水平的關鍵舉措。企業應該著眼于長期、持續有效的數據治理,建立行之有效的數據治理體系,挖掘數據的潛力,從而發揮數據資產在企業中的核心價值。
- Practical Ansible 2
- 自動檢測與轉換技術
- 工業機器人入門實用教程(KUKA機器人)
- Apache Spark Deep Learning Cookbook
- 大學C/C++語言程序設計基礎
- Containers in OpenStack
- Applied Data Visualization with R and ggplot2
- 所羅門的密碼
- 大數據案例精析
- 中國戰略性新興產業研究與發展·數控系統
- 工業機器人操作
- Learn Microsoft Azure
- Serverless Design Patterns and Best Practices
- Mastering MongoDB 4.x
- Python語言從入門到精通