- 大數(shù)據(jù)治理與安全:從理論到開源實(shí)踐
- 劉馳等
- 11291字
- 2019-01-02 20:48:31
1.2 框架
在講述了關(guān)于大數(shù)據(jù)治理的基本概念以及治理的意義和作用后,我們對(duì)大數(shù)據(jù)治理已經(jīng)有了簡單的認(rèn)識(shí)。接下來將會(huì)從3個(gè)維度闡述大數(shù)據(jù)治理的框架,目的是讓讀者更加深刻地認(rèn)識(shí)、理解大數(shù)據(jù)治理。
1.2.1 大數(shù)據(jù)治理框架概述
大數(shù)據(jù)治理框架從全局視角描述了大數(shù)據(jù)治理的主要內(nèi)容,下面我們從大數(shù)據(jù)治理原則、治理范圍、治理的實(shí)施與評(píng)估3個(gè)維度給出大數(shù)據(jù)治理的全貌,展現(xiàn)大數(shù)據(jù)治理的重要性以及如何進(jìn)行大數(shù)據(jù)治理,如圖1-3所示。

圖1-3 大數(shù)據(jù)治理框架
其中大數(shù)據(jù)治理的原則給出了大數(shù)據(jù)治理過程中所遵循的、首要的、基本的指導(dǎo)性法則,即有效性原則、價(jià)值化原則、統(tǒng)一性原則、開放性原則、安全性原則,這5個(gè)部分分別從各個(gè)層面、各個(gè)角度解釋了大數(shù)據(jù)治理所應(yīng)遵循的原則的重要性與必要性。其中,有效性原則體現(xiàn)了大數(shù)據(jù)治理過程中數(shù)據(jù)的標(biāo)準(zhǔn)、質(zhì)量、價(jià)值、管控的有效性、高效性;價(jià)值化原則體現(xiàn)了大數(shù)據(jù)治理過程中以數(shù)據(jù)資產(chǎn)為價(jià)值核心,最大化大數(shù)據(jù)平臺(tái)的數(shù)據(jù)價(jià)值;統(tǒng)一性原則能夠形成一套規(guī)范的、有條理的、可遵循的準(zhǔn)則,能夠節(jié)約很大的成本、時(shí)間,對(duì)大數(shù)據(jù)的治理具有重要意義和作用;開放性原則是為了提高數(shù)據(jù)治理的透明度,不讓海量數(shù)據(jù)信息在封閉的環(huán)境中沉睡,同時(shí)共享信息,安全合理地共享數(shù)據(jù),使數(shù)據(jù)之間形成關(guān)聯(lián),形成一個(gè)良好的數(shù)據(jù)標(biāo)準(zhǔn);安全性原則體現(xiàn)了安全的重要性、必要性,保障大數(shù)據(jù)平臺(tái)的數(shù)據(jù)安全和數(shù)據(jù)治理過程中數(shù)據(jù)的安全可控。
大數(shù)據(jù)治理的范圍描述了大數(shù)據(jù)治理的關(guān)鍵域,即大數(shù)據(jù)治理決策層應(yīng)該在哪些關(guān)鍵領(lǐng)域內(nèi)做出決策。該維度共包含5個(gè)關(guān)鍵領(lǐng)域:大數(shù)據(jù)生命周期、大數(shù)據(jù)架構(gòu)、大數(shù)據(jù)安全與隱私、數(shù)據(jù)質(zhì)量以及大數(shù)據(jù)服務(wù)創(chuàng)新。這5個(gè)關(guān)鍵領(lǐng)域就是大數(shù)據(jù)治理的主要決策領(lǐng)域,規(guī)定了大數(shù)據(jù)治理主要應(yīng)用的地方以及方向。其中,大數(shù)據(jù)生命周期是指數(shù)據(jù)產(chǎn)生、獲取到銷毀的全過程,在大數(shù)據(jù)治理中生命周期的管理更注重在成本可控的情況下有效地管理并使用大數(shù)據(jù),從而創(chuàng)造出更大的價(jià)值。大數(shù)據(jù)生命周期管理包含了數(shù)據(jù)捕獲、數(shù)據(jù)維護(hù)、數(shù)據(jù)合成、數(shù)據(jù)利用、數(shù)據(jù)發(fā)布、數(shù)據(jù)歸檔和數(shù)據(jù)清除。大數(shù)據(jù)架構(gòu)是指大數(shù)據(jù)在IT環(huán)境下進(jìn)行存儲(chǔ)、使用以及管理的邏輯或物理架構(gòu),主要包含了大數(shù)據(jù)來源、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析以及大數(shù)據(jù)應(yīng)用和服務(wù)4個(gè)部分。大數(shù)據(jù)安全與隱私提供了大數(shù)據(jù)隱私管理的幾個(gè)步驟,來對(duì)大數(shù)據(jù)云計(jì)算時(shí)代的數(shù)據(jù)進(jìn)行隱私安全保障。數(shù)據(jù)質(zhì)量領(lǐng)域總結(jié)了大數(shù)據(jù)產(chǎn)生質(zhì)量問題的原因,以及應(yīng)該從哪幾個(gè)方面入手去有效提升大數(shù)據(jù)質(zhì)量。大數(shù)據(jù)服務(wù)創(chuàng)新領(lǐng)域提出應(yīng)該從基于數(shù)據(jù)本身進(jìn)行創(chuàng)新、基于業(yè)務(wù)需求進(jìn)行創(chuàng)新、基于數(shù)據(jù)分析的創(chuàng)新3個(gè)方面進(jìn)行探討,來體現(xiàn)對(duì)大數(shù)據(jù)服務(wù)的創(chuàng)新。
大數(shù)據(jù)治理的實(shí)施與評(píng)估維度描述了大數(shù)據(jù)治理實(shí)施和評(píng)估中需要重點(diǎn)關(guān)注的關(guān)鍵內(nèi)容,該維度共包含了4個(gè)部分:大數(shù)據(jù)治理的實(shí)施、大數(shù)據(jù)治理的體系框架、大數(shù)據(jù)治理的成熟度評(píng)估以及大數(shù)據(jù)治理審計(jì)。它為企業(yè)實(shí)施大數(shù)據(jù)治理提供指導(dǎo)性方案。其中,大數(shù)據(jù)治理的實(shí)施的直接目標(biāo)就是為企業(yè)建立大數(shù)據(jù)治理體系,形成一個(gè)通用的大數(shù)據(jù)治理架構(gòu)。而為了實(shí)現(xiàn)大數(shù)據(jù)治理的實(shí)施目標(biāo),需要通過建立大數(shù)據(jù)治理的環(huán)境、建立完善的大數(shù)據(jù)治理實(shí)施流程體系和規(guī)范,以及明確大數(shù)據(jù)治理實(shí)施的階段目標(biāo)這3個(gè)方面來完成。同時(shí)在大數(shù)據(jù)實(shí)施中,實(shí)施的動(dòng)力來源以及大數(shù)據(jù)治理的促成因素包含3個(gè)方面:治理實(shí)施的環(huán)境、實(shí)施技術(shù)和工具、流程與活動(dòng)管理。而大數(shù)據(jù)治理的體系框架提出了一個(gè)通用的數(shù)據(jù)治理體系及架構(gòu),并分析了架構(gòu)內(nèi)各個(gè)模塊的功能與作用,從數(shù)據(jù)持久化層、數(shù)據(jù)集成層、統(tǒng)一建模層、數(shù)據(jù)質(zhì)量層、元數(shù)據(jù)管理層和數(shù)據(jù)治理人員組織層5個(gè)方面對(duì)大數(shù)據(jù)治理的體系結(jié)構(gòu)進(jìn)行闡述。大數(shù)據(jù)治理過程中,通過成熟度評(píng)估可以了解當(dāng)前大數(shù)據(jù)治理實(shí)施的狀態(tài)和實(shí)施方向,成熟度可以幫助了解治理的重要性。根據(jù)能力成熟度分類的方法,將成熟度分為5個(gè)等級(jí),等級(jí)由低到高分別為:初始級(jí)、受管級(jí)、定義級(jí)、定量管理級(jí)、優(yōu)化級(jí)。大數(shù)據(jù)治理的審計(jì)不僅可以提高大數(shù)據(jù)治理的實(shí)施水平,還能從更全面的角度為大數(shù)據(jù)治理提供實(shí)施意見,而且大數(shù)據(jù)審計(jì)還可以滿足企業(yè)監(jiān)管的需要,改善大數(shù)據(jù)在治理過程中的安全和隱私。
相關(guān)組織及企業(yè)可根據(jù)上述3個(gè)維度的指導(dǎo)原則,從大數(shù)據(jù)治理原則、治理范圍、治理的實(shí)施與評(píng)估3個(gè)維度了解大數(shù)據(jù)的治理工作,按照治理原則中所遵循的指導(dǎo)性法則、治理范圍中的治理關(guān)鍵域以及實(shí)施與評(píng)估維度中的關(guān)鍵內(nèi)容,持續(xù)穩(wěn)步地推進(jìn)大數(shù)據(jù)治理工作。
1.2.2 大數(shù)據(jù)治理的原則

圖1-4 大數(shù)據(jù)治理原則
大數(shù)據(jù)治理原則是指大數(shù)據(jù)治理所遵循的、首要的、基本的指導(dǎo)性法則。大數(shù)據(jù)治理原則對(duì)大數(shù)據(jù)治理實(shí)踐起指導(dǎo)作用,只有將原則融入實(shí)踐過程中,才能實(shí)現(xiàn)大數(shù)據(jù)治理的戰(zhàn)略和目標(biāo)。提高大數(shù)據(jù)運(yùn)用能力,可以有效增強(qiáng)政府服務(wù)和監(jiān)管的有效性。為了高效采集、有效整合、充分運(yùn)用龐大的數(shù)據(jù),提出以下5項(xiàng)大數(shù)據(jù)治理的基本原則,如圖1-4所示。
1.有效性原則
有效性原則體現(xiàn)了大數(shù)據(jù)治理過程中數(shù)據(jù)的標(biāo)準(zhǔn)、質(zhì)量、價(jià)值、管控的有效性、高效性。在大數(shù)據(jù)治理的過程中,首先需要的是對(duì)數(shù)據(jù)處理的信息準(zhǔn)確度高、理解上不存在歧義,遵循有效性原則,選擇有用數(shù)據(jù),淘汰無用數(shù)據(jù),識(shí)別出有代表性的本質(zhì)數(shù)據(jù),去除細(xì)枝末節(jié)或無意義的非本質(zhì)數(shù)據(jù)。這種有效性原則在大數(shù)據(jù)的收集、挖掘、算法和實(shí)施中具有重要作用。運(yùn)用有效性原則就能夠獲取可靠數(shù)據(jù),減少數(shù)據(jù)集規(guī)模,提高數(shù)據(jù)抽象程度,提升數(shù)據(jù)挖掘的效率,使之在實(shí)際工作中可以根據(jù)需要選用具體的分析數(shù)據(jù)和合適的處理方法,以達(dá)到操作上的簡單、簡潔、簡約和高效。具體來說,當(dāng)一位認(rèn)知主體面對(duì)收集到的大量數(shù)據(jù)和一些非結(jié)構(gòu)化的數(shù)據(jù)對(duì)象,如文檔、圖片、飾品等物件時(shí),不僅需要掌握大數(shù)據(jù)管理、大數(shù)據(jù)集成的技術(shù)和方法,遵循“有效性原則”和“數(shù)據(jù)集成原則”,學(xué)會(huì)數(shù)據(jù)的歸檔、分析、建模和元數(shù)據(jù)管理,還需要在大量數(shù)據(jù)激增的過程中,學(xué)會(huì)規(guī)約、選擇、評(píng)估和發(fā)現(xiàn)某些潛在的本質(zhì)性變化,包括對(duì)新課題、新項(xiàng)目的興趣開發(fā)。
2.價(jià)值化原則
價(jià)值化原則指大數(shù)據(jù)治理過程中以數(shù)據(jù)資產(chǎn)為價(jià)值核心,最大化大數(shù)據(jù)平臺(tái)的數(shù)據(jù)價(jià)值。數(shù)據(jù)本身不產(chǎn)生價(jià)值,但是從龐雜的數(shù)據(jù)背后挖掘、分析用戶的行為習(xí)慣和喜好,找出更符合用戶“口味”的產(chǎn)品和服務(wù),并結(jié)合用戶需求有針對(duì)性地調(diào)整和優(yōu)化自身,這具有很大的價(jià)值。大數(shù)據(jù)在各個(gè)行業(yè)應(yīng)用都是通過大數(shù)據(jù)技術(shù)來獲知事情發(fā)展的真相,最終利用這個(gè)“真相”來更加合理地配置資源。而要實(shí)現(xiàn)大數(shù)據(jù)的核心價(jià)值,需要3個(gè)重要的步驟,第1步是通過“眾包”的形式收集數(shù)據(jù),第2步是通過大數(shù)據(jù)的技術(shù)途徑進(jìn)行全面的數(shù)據(jù)挖掘,最后利用分析結(jié)果進(jìn)行資源優(yōu)化配置。
3.統(tǒng)一性原則
統(tǒng)一性原則是在數(shù)據(jù)標(biāo)準(zhǔn)管理組織架構(gòu)的推動(dòng)和指導(dǎo)下,遵循協(xié)商一致制定的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,借助標(biāo)準(zhǔn)化管控流程得以實(shí)施數(shù)據(jù)統(tǒng)一性的原則。如今的大數(shù)據(jù)和云計(jì)算已經(jīng)成為社會(huì)發(fā)展動(dòng)力中新一輪的創(chuàng)新平臺(tái),基于大數(shù)據(jù)系統(tǒng)做一個(gè)數(shù)據(jù)產(chǎn)品,需要數(shù)據(jù)采集、收集、存儲(chǔ)和計(jì)算等多個(gè)步驟,整個(gè)流程很長。經(jīng)過統(tǒng)一規(guī)范后,通過標(biāo)準(zhǔn)配置,能夠大大縮短數(shù)據(jù)采集的整個(gè)流程。大數(shù)據(jù)治理遵循統(tǒng)一性原則,能夠節(jié)約很大的成本及時(shí)間,同時(shí)形成一個(gè)規(guī)范,這對(duì)于大數(shù)據(jù)的治理具有重要意義與作用。
4.開放性原則
在大數(shù)據(jù)和云環(huán)境下,要以開放的理念確立起信息公開的政策思想,運(yùn)用開放、透明、發(fā)展、共享的信息資源管理理念對(duì)數(shù)據(jù)進(jìn)行處理,提高數(shù)據(jù)治理的透明度,不讓海量的數(shù)據(jù)信息在封閉的環(huán)境中沉睡。我們不能以信息安全為理由使很多數(shù)據(jù)處于沉睡的狀態(tài),而不開放性地處理數(shù)據(jù)。我們需要對(duì)信息數(shù)據(jù)進(jìn)行自由共享,向公眾開放數(shù)據(jù),安全合理地共享數(shù)據(jù)并使數(shù)據(jù)之間形成關(guān)聯(lián),形成一個(gè)良好的數(shù)據(jù)標(biāo)準(zhǔn)和強(qiáng)有力的數(shù)據(jù)保護(hù)框架,使數(shù)據(jù)高效、安全地共享和關(guān)聯(lián),在保護(hù)公民個(gè)人自由的同時(shí)促進(jìn)經(jīng)濟(jì)的增長和創(chuàng)新。
5.安全性原則
大數(shù)據(jù)治理的安全性原則體現(xiàn)了安全的重要性、必要性,保障大數(shù)據(jù)平臺(tái)數(shù)據(jù)安全和數(shù)據(jù)治理過程中數(shù)據(jù)的安全可控。大數(shù)據(jù)的安全性直接關(guān)系到大數(shù)據(jù)業(yè)務(wù)能否全面推廣,數(shù)據(jù)治理過程中在利用大數(shù)據(jù)優(yōu)勢(shì)的基礎(chǔ)上,要明確其安全性,從技術(shù)層面到管理層面采用多種策略,提升大數(shù)據(jù)本身及其平臺(tái)的安全性。在大數(shù)據(jù)時(shí)代,業(yè)務(wù)數(shù)據(jù)和安全需求相結(jié)合,才能夠有效提高企業(yè)的安全防護(hù)水平。大數(shù)據(jù)的匯集不可避免地加大了用戶隱私數(shù)據(jù)信息泄漏的風(fēng)險(xiǎn)。由于數(shù)據(jù)中包含大量的用戶信息,使得對(duì)大數(shù)據(jù)的開發(fā)利用很容易侵犯公民的隱私,惡意利用公民隱私的技術(shù)門檻大大降低。在大數(shù)據(jù)應(yīng)用環(huán)境下,數(shù)據(jù)呈現(xiàn)動(dòng)態(tài)特征,面對(duì)數(shù)據(jù)庫中屬性和表現(xiàn)形式不斷隨機(jī)變化,基于靜態(tài)數(shù)據(jù)集的傳統(tǒng)數(shù)據(jù)隱私保護(hù)技術(shù)面臨挑戰(zhàn)。各領(lǐng)域?qū)τ谟脩綦[私保護(hù)有多方面要求和特點(diǎn),數(shù)據(jù)之間存在復(fù)雜的關(guān)聯(lián)和敏感性,而大部分現(xiàn)有隱私保護(hù)模型和算法都是僅針對(duì)傳統(tǒng)的關(guān)系型數(shù)據(jù),而不能直接將其移植到大數(shù)據(jù)應(yīng)用中。
傳統(tǒng)數(shù)據(jù)安全往往是圍繞數(shù)據(jù)生命周期部署的,即數(shù)據(jù)的產(chǎn)生、存儲(chǔ)、使用和銷毀。隨著大數(shù)據(jù)應(yīng)用的增多,數(shù)據(jù)的擁有者和管理者相分離,原來的數(shù)據(jù)生命周期逐漸轉(zhuǎn)變成數(shù)據(jù)的產(chǎn)生、傳輸、存儲(chǔ)和使用。由于大數(shù)據(jù)的規(guī)模沒有上限,且許多數(shù)據(jù)的生命周期極為短暫,因此,傳統(tǒng)安全產(chǎn)品要想繼續(xù)發(fā)揮作用,需要隨時(shí)關(guān)注大數(shù)據(jù)存儲(chǔ)和處理的動(dòng)態(tài)化、并行化特征,動(dòng)態(tài)跟蹤數(shù)據(jù)邊界,管理對(duì)數(shù)據(jù)的操作行為。
大數(shù)據(jù)安全不同于關(guān)系型數(shù)據(jù)安全,大數(shù)據(jù)無論是在數(shù)據(jù)體量、結(jié)構(gòu)類型、處理速度、價(jià)值密度方面,還是在數(shù)據(jù)存儲(chǔ)、查詢模式、分析應(yīng)用上都與關(guān)系型數(shù)據(jù)有著顯著差異。
為解決大數(shù)據(jù)自身的安全問題,需要重新設(shè)計(jì)和構(gòu)建大數(shù)據(jù)安全架構(gòu)和開放數(shù)據(jù)服務(wù),從網(wǎng)絡(luò)安全、數(shù)據(jù)安全、災(zāi)難備份、安全風(fēng)險(xiǎn)管理、安全運(yùn)營管理、安全事件管理、安全治理等各個(gè)角度考慮,部署整體的安全解決方案,以保障大數(shù)據(jù)計(jì)算過程、數(shù)據(jù)形態(tài)、應(yīng)用價(jià)值的安全。
1.2.3 大數(shù)據(jù)治理的范圍
大數(shù)據(jù)蘊(yùn)含價(jià)值的逐步釋放,使其成為IT信息產(chǎn)業(yè)中最具潛力的藍(lán)海。大數(shù)據(jù)正以一種革命風(fēng)暴的姿態(tài)闖入人們的視野,其技術(shù)和市場(chǎng)在快速發(fā)展,從而使數(shù)據(jù)治理的范圍變成不可忽略的因素。
大數(shù)據(jù)治理范圍著重描述了大數(shù)據(jù)治理的關(guān)鍵領(lǐng)域。大數(shù)據(jù)治理的關(guān)鍵領(lǐng)域包括:大數(shù)據(jù)生命周期,大數(shù)據(jù)架構(gòu)(大數(shù)據(jù)存儲(chǔ)、元數(shù)據(jù)、數(shù)據(jù)倉庫、業(yè)務(wù)應(yīng)用),大數(shù)據(jù)安全與隱私,數(shù)據(jù)質(zhì)量,大數(shù)據(jù)服務(wù)創(chuàng)新,如圖1-5所示。

圖1-5 大數(shù)據(jù)治理關(guān)鍵領(lǐng)域
1.大數(shù)據(jù)生命周期
大數(shù)據(jù)生命周期是指數(shù)據(jù)產(chǎn)生、獲取到銷毀的全過程,具體可分為數(shù)據(jù)捕獲、數(shù)據(jù)維護(hù)、數(shù)據(jù)合成、數(shù)據(jù)利用、數(shù)據(jù)發(fā)布、數(shù)據(jù)歸檔、數(shù)據(jù)清除等。
傳統(tǒng)數(shù)據(jù)的生命周期管理的重點(diǎn)在于節(jié)省成本和保存管理。而在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的生命周期管理的重點(diǎn)則發(fā)生了翻天覆地的變化,更注重在成本可控的情況下,有效地管理并使用大數(shù)據(jù),從而創(chuàng)造出更大的價(jià)值。
大數(shù)據(jù)生命周期管理面臨著巨大的挑戰(zhàn),其中包括3個(gè)主要類別:無窮無盡的數(shù)據(jù)總量,新數(shù)據(jù)的短期有效性,以及數(shù)據(jù)的一致性。
大數(shù)據(jù)生命周期管理主要包括以下部分:
1)數(shù)據(jù)捕獲,即創(chuàng)建尚不存在或者雖然存在但并沒有被采集的數(shù)據(jù)。主要包括3個(gè)方面的數(shù)據(jù)來源,數(shù)據(jù)采集、數(shù)據(jù)輸入、數(shù)據(jù)接收。
2)數(shù)據(jù)維護(hù),即數(shù)據(jù)內(nèi)容的維護(hù)(無錯(cuò)漏、無冗余、無有害數(shù)據(jù))、數(shù)據(jù)更新、數(shù)據(jù)邏輯一致性等方面的維護(hù)。
3)數(shù)據(jù)合成,即利用其他已經(jīng)存在的數(shù)據(jù)作為輸入,經(jīng)過邏輯轉(zhuǎn)換生成新的數(shù)據(jù)。例如我們已知計(jì)算公式:凈銷售額=銷售總額-稅收,如果知道銷售總額和稅收,就可以計(jì)算出凈銷售額。
4)數(shù)據(jù)利用,即在企業(yè)中如何使用數(shù)據(jù),把數(shù)據(jù)本身當(dāng)作企業(yè)的一個(gè)產(chǎn)品或者服務(wù)進(jìn)行運(yùn)行和管理。
5)數(shù)據(jù)發(fā)布,即在數(shù)據(jù)使用過程中,可能由于業(yè)務(wù)的需要將數(shù)據(jù)從企業(yè)內(nèi)部發(fā)送到企業(yè)外部。
6)數(shù)據(jù)歸檔,即將不再經(jīng)常使用的數(shù)據(jù)移到一個(gè)單獨(dú)的存儲(chǔ)設(shè)備上進(jìn)行長期保存的過程,對(duì)涉及的數(shù)據(jù)進(jìn)行離線存儲(chǔ),以備非常規(guī)查詢等。
7)數(shù)據(jù)清除,即在企業(yè)中清除數(shù)據(jù)的每一份拷貝。
2.大數(shù)據(jù)架構(gòu)
大數(shù)據(jù)架構(gòu)是指大數(shù)據(jù)在IT環(huán)境中如何進(jìn)行存儲(chǔ)、使用及管理的邏輯或者物理架構(gòu)。它由大數(shù)據(jù)架構(gòu)師或者設(shè)計(jì)師在實(shí)現(xiàn)一個(gè)大數(shù)據(jù)解決方案的物理實(shí)施之前創(chuàng)建,從邏輯上定義了大數(shù)據(jù)關(guān)于其存儲(chǔ)方案、核心組件的使用、信息流的管理、安全措施等的解決方案。建立大數(shù)據(jù)架構(gòu)通常需要以業(yè)務(wù)需求和大數(shù)據(jù)性能需求為前提。
大數(shù)據(jù)架構(gòu)主要包含4個(gè)層次:大數(shù)據(jù)來源,大數(shù)據(jù)存儲(chǔ),大數(shù)據(jù)分析,大數(shù)據(jù)應(yīng)用和服務(wù)。
1)大數(shù)據(jù)來源:此層負(fù)責(zé)收集可用于分析的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),提供解決業(yè)務(wù)問題所需的洞察。此層是進(jìn)行大數(shù)據(jù)分析的前提。
2)大數(shù)據(jù)存儲(chǔ):主要定義了大數(shù)據(jù)的存儲(chǔ)設(shè)施以及存儲(chǔ)方案,以進(jìn)一步進(jìn)行數(shù)據(jù)分析處理。通常這一層提供多個(gè)數(shù)據(jù)存儲(chǔ)選項(xiàng),比如分布式文件存儲(chǔ)、云、結(jié)構(gòu)化數(shù)據(jù)源、NoSQL等。此層是大數(shù)據(jù)架構(gòu)的基礎(chǔ)。
3)大數(shù)據(jù)分析:提供大數(shù)據(jù)分析的工具以及分析需求,從數(shù)據(jù)中提取業(yè)務(wù)洞察,是大數(shù)據(jù)架構(gòu)的核心。分析的要素主要包含元數(shù)據(jù)、數(shù)據(jù)倉庫。
4)大數(shù)據(jù)應(yīng)用和服務(wù):提供大數(shù)據(jù)可視化、交易、共享等,由組織內(nèi)的各個(gè)用戶和組織外部的實(shí)體(比如客戶、供應(yīng)商、合作伙伴和提供商)使用,是大數(shù)據(jù)價(jià)值的最終體現(xiàn)。
3.大數(shù)據(jù)安全與隱私
大數(shù)據(jù)作為社會(huì)的又一個(gè)基礎(chǔ)性資源,將給社會(huì)進(jìn)步、經(jīng)濟(jì)發(fā)展帶來強(qiáng)大的驅(qū)動(dòng)力。大數(shù)據(jù)代表了先進(jìn)技術(shù)的發(fā)展方向,已經(jīng)成為不可阻擋的趨勢(shì)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的收集與保護(hù)成為競(jìng)爭的著力點(diǎn)。從個(gè)人隱私安全層面看,大數(shù)據(jù)將大眾帶入開放、透明的“裸奔”時(shí)代,若對(duì)數(shù)據(jù)安全保護(hù)不利,將引發(fā)不可估量的問題。解決傳統(tǒng)網(wǎng)絡(luò)安全的基本思想是劃分邊界,在每個(gè)邊界設(shè)立網(wǎng)關(guān)設(shè)備和網(wǎng)絡(luò)流量設(shè)備,用守住邊界的辦法來解決安全問題。但隨著移動(dòng)互聯(lián)網(wǎng)、云服務(wù)的出現(xiàn),網(wǎng)絡(luò)邊界實(shí)際上已經(jīng)消亡了。因此,在開放大數(shù)據(jù)共享的同時(shí),也帶來了對(duì)數(shù)據(jù)安全的隱憂。大數(shù)據(jù)安全是“互聯(lián)網(wǎng)+”時(shí)代的核心挑戰(zhàn),安全問題具有線上和線下融合在一起的特征。
可以嘗試以下方法進(jìn)行大數(shù)據(jù)的隱私管理:
1)定義和發(fā)現(xiàn)敏感的大數(shù)據(jù),并在元數(shù)據(jù)庫中將敏感大數(shù)據(jù)進(jìn)行標(biāo)記和分類。
2)在收集、存儲(chǔ)和使用個(gè)人數(shù)據(jù)時(shí),需要嚴(yán)格執(zhí)行所在地關(guān)于隱私方面的法律法規(guī),并制定合理的數(shù)據(jù)保留、處理政策,遵循公司法律顧問和首席隱私官的建議。
3)在存儲(chǔ)和使用過程中,對(duì)敏感大數(shù)據(jù)進(jìn)行加密和反識(shí)別處理。
4)加強(qiáng)對(duì)系統(tǒng)特權(quán)用戶的管理,防止特權(quán)用戶訪問敏感大數(shù)據(jù)。
5)在數(shù)據(jù)的使用過程中,需要對(duì)大數(shù)據(jù)用戶進(jìn)行認(rèn)證、授權(quán)、訪問和審計(jì)等管理,尤其是要監(jiān)控用戶對(duì)機(jī)密數(shù)據(jù)的訪問和使用。
6)審計(jì)大數(shù)據(jù)認(rèn)證、授權(quán)和訪問的合規(guī)性。
大數(shù)據(jù)也和其他領(lǐng)域的新技術(shù)一樣,給我們帶來了安全與隱私問題。另外,它們也不斷地對(duì)我們管理計(jì)算機(jī)的方法提出挑戰(zhàn)。正如印刷機(jī)的發(fā)明引發(fā)了社會(huì)自我管理的變革一樣,大數(shù)據(jù)也是如此。它迫使我們借助新方法來應(yīng)對(duì)長期存在的安全與隱私挑戰(zhàn),并且通過借鑒基本原理對(duì)新的隱患進(jìn)行應(yīng)對(duì)。我們?cè)诓粩嗤七M(jìn)科學(xué)技術(shù)進(jìn)步的同時(shí),也應(yīng)確保我們自身的安全。
4.?dāng)?shù)據(jù)質(zhì)量
當(dāng)前大數(shù)據(jù)在多個(gè)領(lǐng)域廣泛存在,大數(shù)據(jù)的質(zhì)量對(duì)其有效應(yīng)用起著至關(guān)重要的作用,而且在大數(shù)據(jù)使用過程中,如果存在數(shù)據(jù)質(zhì)量問題,將會(huì)帶來嚴(yán)重的后果,因而需要對(duì)大數(shù)據(jù)進(jìn)行質(zhì)量管理。大數(shù)據(jù)產(chǎn)生數(shù)據(jù)質(zhì)量問題的具體原因如下:
1)由于規(guī)模大,其在收集、存儲(chǔ)、傳輸和計(jì)算過程中可能產(chǎn)生更多的錯(cuò)誤,如果對(duì)其采用人工錯(cuò)誤檢測(cè)與修復(fù),將導(dǎo)致成本極其巨大而難以有效實(shí)施。
2)由于高速性,數(shù)據(jù)在使用過程中難以保證其一致性。
3)大數(shù)據(jù)的多樣性使其具有更大的可能產(chǎn)生不一致和沖突。
如果沒有良好的數(shù)據(jù)質(zhì)量,大數(shù)據(jù)將會(huì)對(duì)決策產(chǎn)生誤導(dǎo),甚至產(chǎn)生有害的結(jié)果。高質(zhì)量的數(shù)據(jù)是進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)使用以及保證數(shù)據(jù)質(zhì)量的前提。大數(shù)據(jù)質(zhì)量控制在實(shí)施大數(shù)據(jù)質(zhì)量和減輕大數(shù)據(jù)治理并發(fā)癥過程中發(fā)揮著重要作用,它能夠把社會(huì)媒體或其他非傳統(tǒng)的數(shù)據(jù)源進(jìn)行標(biāo)準(zhǔn)化,并且可以有效防止數(shù)據(jù)散落。
建立可持續(xù)改進(jìn)的數(shù)據(jù)管控平臺(tái),有效提升大數(shù)據(jù)質(zhì)量管理,可以從以下幾個(gè)方面入手:
1)數(shù)據(jù)質(zhì)量評(píng)估,提供全方位數(shù)據(jù)質(zhì)量評(píng)估能力,如數(shù)據(jù)的正確性、完全性、一致性、合規(guī)性等,對(duì)數(shù)據(jù)進(jìn)行全面體檢。
2)數(shù)據(jù)質(zhì)量檢核和執(zhí)行,提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時(shí)調(diào)度執(zhí)行。
3)數(shù)據(jù)質(zhì)量監(jiān)控,系統(tǒng)提供報(bào)警機(jī)制,對(duì)檢核規(guī)則或方法進(jìn)行閾值設(shè)置,對(duì)超出閾值的規(guī)則進(jìn)行不同級(jí)別的告警和通知。
4)流程化問題處理機(jī)制,對(duì)數(shù)據(jù)問題進(jìn)行流程處理支持,規(guī)范問題處理機(jī)制和步驟,強(qiáng)化問題認(rèn)證,提升數(shù)據(jù)質(zhì)量。
5)根據(jù)血統(tǒng)關(guān)系鎖定在倉庫中使用頻率較高的對(duì)象,進(jìn)行高級(jí)安全管理,避免誤操作。
數(shù)據(jù)質(zhì)量管理是一個(gè)綜合的治理過程,不能只通過簡單的技術(shù)手段解決,需要從企業(yè)的高度加以重視,才能在大數(shù)據(jù)世界里博采眾長,搶占先機(jī)。
5.大數(shù)據(jù)服務(wù)創(chuàng)新
在信息經(jīng)濟(jì)發(fā)展迅猛的今天,隨著數(shù)據(jù)扮演生產(chǎn)要素的角色,云計(jì)算發(fā)揮公共計(jì)算基礎(chǔ)設(shè)施的作用,數(shù)據(jù)的開放、共享與流動(dòng)成為可能,大數(shù)據(jù)的服務(wù)創(chuàng)新將激發(fā)新的生產(chǎn)力。在大數(shù)據(jù)時(shí)代,各個(gè)企業(yè)的核心競(jìng)爭力不僅僅是數(shù)據(jù)量的競(jìng)爭,多類數(shù)據(jù)之間融合、分析、挖掘與利用才是各企業(yè)間競(jìng)爭的主要內(nèi)容,加強(qiáng)數(shù)據(jù)服務(wù)創(chuàng)新將成為競(jìng)爭的關(guān)鍵因素。下面,將主要從基于數(shù)據(jù)本身進(jìn)行創(chuàng)新、基于業(yè)務(wù)需求進(jìn)行創(chuàng)新、基于數(shù)據(jù)分析的創(chuàng)新3個(gè)方面探討大數(shù)據(jù)服務(wù)創(chuàng)新。
1)基于數(shù)據(jù)本身進(jìn)行創(chuàng)新:直接分析、統(tǒng)計(jì)、挖掘、可視化擁有的數(shù)據(jù),從而發(fā)現(xiàn)一些規(guī)律,對(duì)業(yè)務(wù)進(jìn)行創(chuàng)新。
2)基于業(yè)務(wù)需求進(jìn)行創(chuàng)新:通過對(duì)數(shù)據(jù)的價(jià)值鏈、業(yè)務(wù)關(guān)聯(lián)接口、業(yè)務(wù)要素等方面的創(chuàng)新,可以深入洞察業(yè)務(wù)需求,發(fā)現(xiàn)特色數(shù)據(jù),進(jìn)而提供更加個(gè)性化的服務(wù)。
3)基于數(shù)據(jù)分析的創(chuàng)新:針對(duì)數(shù)據(jù)定義,通過數(shù)據(jù)中間處理以及數(shù)據(jù)處理自動(dòng)化、智能化的創(chuàng)新,進(jìn)一步更清晰地呈現(xiàn)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行更明確的分析和更深層的解讀。
1.2.4 大數(shù)據(jù)治理的實(shí)施與評(píng)估
大數(shù)據(jù)治理的實(shí)施與評(píng)估描述了大數(shù)據(jù)治理的實(shí)施和評(píng)估過程中需要重點(diǎn)關(guān)注的內(nèi)容,包含大數(shù)據(jù)治理的實(shí)施環(huán)境、實(shí)施步驟,以及實(shí)施結(jié)果的評(píng)估,為企業(yè)實(shí)施大數(shù)據(jù)治理提供指導(dǎo)性方案。
1.大數(shù)據(jù)治理的實(shí)施
大數(shù)據(jù)治理的實(shí)施的最直接目標(biāo)就是為企業(yè)建立大數(shù)據(jù)治理的體系,憑借IT方面治理的實(shí)施方法論,并結(jié)合大數(shù)據(jù)治理的特征,形成一個(gè)通用的大數(shù)據(jù)治理框架,并著重指出在每個(gè)階段需要關(guān)注的關(guān)鍵要素以及在各個(gè)階段的產(chǎn)出物。為實(shí)現(xiàn)大數(shù)據(jù)治理的目標(biāo),主要進(jìn)行以下三方面的實(shí)施。首先,需要建立大數(shù)據(jù)治理的軟硬件環(huán)境,綜合考慮數(shù)據(jù)量大小、用戶及時(shí)性需求等來建立大數(shù)據(jù)治理的環(huán)境,這是大數(shù)據(jù)治理實(shí)施的基礎(chǔ)。其次,需要建立完善的大數(shù)據(jù)治理實(shí)施流程體系和規(guī)范,完善的流程是保障大數(shù)據(jù)治理順利實(shí)施的重要措施。最后,明確制定大數(shù)據(jù)治理實(shí)施的階段目標(biāo),明確目標(biāo)將會(huì)促使大數(shù)據(jù)治理實(shí)施能夠高質(zhì)量地完成。實(shí)施大數(shù)據(jù)治理的長期目標(biāo)是通過大數(shù)據(jù)治理,為企業(yè)的利益相關(guān)者帶來價(jià)值,這種價(jià)值主要體現(xiàn)在三個(gè)方面,分別是業(yè)務(wù)創(chuàng)新、價(jià)值獲取、風(fēng)險(xiǎn)控制。
在大數(shù)據(jù)治理的實(shí)施過程中,首先必須明確大數(shù)據(jù)治理的未來目標(biāo)以及促成因素,從而讓企業(yè)的決策者對(duì)大數(shù)據(jù)治理的實(shí)施制定總體規(guī)劃。
大數(shù)據(jù)實(shí)施的動(dòng)力主要來源于大數(shù)據(jù)治理的業(yè)務(wù)需求,這些需求包括內(nèi)部需求和外部需求。這些需求從高到低分別為:企業(yè)高層管理根據(jù)企業(yè)的價(jià)值方向確定大數(shù)據(jù)治理的發(fā)展策略以及重大決策;業(yè)務(wù)管理員根據(jù)提升管理水平、降低大數(shù)據(jù)的運(yùn)營成本等目標(biāo),制定企業(yè)的具體運(yùn)作和管理任務(wù);業(yè)務(wù)操作員根據(jù)提升業(yè)務(wù)處理水平來實(shí)施具體業(yè)務(wù),而不負(fù)責(zé)監(jiān)督其他管理任務(wù);基礎(chǔ)設(shè)施層主要負(fù)責(zé)為大數(shù)據(jù)治理的實(shí)施提供統(tǒng)一的基礎(chǔ)設(shè)施管理。
大數(shù)據(jù)治理的促成因素是指對(duì)大數(shù)據(jù)治理的成功實(shí)施具有關(guān)鍵性作用的因素,主要包括三方面:治理實(shí)施的環(huán)境、實(shí)施技術(shù)和工具、流程與活動(dòng)管理。治理實(shí)施的環(huán)境主要包括內(nèi)部環(huán)境和外部環(huán)境,內(nèi)部環(huán)境主要包括企業(yè)內(nèi)部文化,外部環(huán)境主要包括大數(shù)據(jù)實(shí)施環(huán)境、企業(yè)現(xiàn)在所具備的技能和知識(shí)等。實(shí)施技術(shù)和工具主要是指為大數(shù)據(jù)治理實(shí)施提供有力的支撐和保障,在使用相應(yīng)的技術(shù)和工具時(shí)主要包含以下內(nèi)容:技術(shù)與工具的安全性保障,具備大數(shù)據(jù)的訪問和控制技術(shù);利用技術(shù)和工具對(duì)數(shù)據(jù)的生命周期等進(jìn)行配置管理;審計(jì)和報(bào)告工具來完成對(duì)業(yè)務(wù)流程的監(jiān)控,提前發(fā)現(xiàn)可疑活動(dòng),減輕系統(tǒng)管理的負(fù)擔(dān),提高問題處理效率。流程與活動(dòng)管理主要包括詳細(xì)定義流程的作用和流程的目的,優(yōu)化用戶和大數(shù)據(jù)之間的溝通效率。
2.大數(shù)據(jù)治理的體系框架
近些年國內(nèi)的研究更關(guān)注于某一行業(yè)或者領(lǐng)域的數(shù)據(jù)治理應(yīng)用情況,缺乏通用的大數(shù)據(jù)治理框架體系。本書針對(duì)這一問題,提出一個(gè)通用的大數(shù)據(jù)治理體系架構(gòu),并分析了架構(gòu)內(nèi)各個(gè)模塊的功能與作用。數(shù)據(jù)治理體系框架包括數(shù)據(jù)持久化層、數(shù)據(jù)集成層、統(tǒng)一建模層、數(shù)據(jù)質(zhì)量層、元數(shù)據(jù)管理層和數(shù)據(jù)治理人員組織層。
1)持久化。持久化是數(shù)據(jù)治理的基礎(chǔ)問題。在傳統(tǒng)的數(shù)據(jù)管理層場(chǎng)景,一般用關(guān)系型數(shù)據(jù)庫作為數(shù)據(jù)持久化的載體。對(duì)于這一問題已有許多研究,本書不贅述。然而伴隨大數(shù)據(jù)時(shí)代的到來,一方面,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫很難應(yīng)對(duì)數(shù)據(jù)量過大的問題,因此在數(shù)據(jù)治理體系內(nèi)引入NoSQL數(shù)據(jù)庫是大數(shù)據(jù)問題驅(qū)動(dòng)的必然選擇;另一方面,非結(jié)構(gòu)化數(shù)據(jù)往往以大文件的形式存在,這些大文件通常依賴于分布式的文件系統(tǒng),如HDFS、TFS等,相比傳統(tǒng)的數(shù)據(jù)治理方法,新一代的數(shù)據(jù)治理體系應(yīng)當(dāng)對(duì)這些新生的大數(shù)據(jù)技術(shù)給予支持。
2)數(shù)據(jù)集成。企業(yè)內(nèi)部不同系統(tǒng)之間往往存在許多共有的復(fù)用數(shù)據(jù)。在傳統(tǒng)的數(shù)據(jù)管理體系下,并未對(duì)這些數(shù)據(jù)給出明確定義。在數(shù)據(jù)治理體系下,這些數(shù)據(jù)以“主數(shù)據(jù)”的形式表達(dá)出來。主數(shù)據(jù)是指具有高業(yè)務(wù)價(jià)值的、可以在企業(yè)內(nèi)跨越各個(gè)業(yè)務(wù)部門被重復(fù)使用的數(shù)據(jù),是單一、準(zhǔn)確、權(quán)威的數(shù)據(jù)來源。主數(shù)據(jù)的實(shí)施,更有利于系統(tǒng)的集成和數(shù)據(jù)的協(xié)調(diào)管理。
作為不同系統(tǒng)產(chǎn)生的大文件數(shù)據(jù),上層的系統(tǒng)應(yīng)用需要統(tǒng)一的SQL接口來部署和管理,這就用到了數(shù)據(jù)倉庫技術(shù)。例如Hadoop體系中的Hive,可以很好地將不同的大文件抽象出統(tǒng)一的SQL接口供上層使用,通過將SQL語句轉(zhuǎn)化為大數(shù)據(jù)常用的MapReduce程序來實(shí)現(xiàn)數(shù)據(jù)查找等功能。這一過程對(duì)上層完全透明,大大簡化了開發(fā)難度。
3)統(tǒng)一建模。統(tǒng)一建模是主數(shù)據(jù)和數(shù)據(jù)倉庫建立的重要標(biāo)準(zhǔn)。從本質(zhì)上看,數(shù)據(jù)治理體系下的數(shù)據(jù)建模與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的建模并無本質(zhì)不同,同樣存在著三級(jí)數(shù)據(jù)模型,即概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型。
4)數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理的重要內(nèi)涵,我們可以把數(shù)據(jù)質(zhì)量理解為“數(shù)據(jù)滿足要求的程度”。其中,數(shù)據(jù)質(zhì)量又有許多評(píng)估維度,例如數(shù)據(jù)的來源是否可靠?數(shù)據(jù)是否完整?數(shù)據(jù)是否可訪問?數(shù)據(jù)是否安全?等等。這些都要根據(jù)客觀的實(shí)際需要來制定。
5)元數(shù)據(jù)管理。元數(shù)據(jù)(Metadata)通常被用來表達(dá)實(shí)體數(shù)據(jù)的描述信息,即可稱為“數(shù)據(jù)的數(shù)據(jù)”。抽象出這種用來表述數(shù)據(jù)特征的數(shù)據(jù),是為了加強(qiáng)數(shù)據(jù)的統(tǒng)一管理,實(shí)現(xiàn)數(shù)據(jù)資源的科學(xué)整合,有利于數(shù)據(jù)的長期保存。例如,統(tǒng)一建模的描述信息、數(shù)據(jù)質(zhì)量的定義等信息可統(tǒng)統(tǒng)交由元數(shù)據(jù)庫來管理。
6)數(shù)據(jù)治理人員組織。數(shù)據(jù)治理的真正實(shí)施,說到底還是要依賴企業(yè)的人員組織部門。具體來說,是由戰(zhàn)略決策者、業(yè)務(wù)管理者、業(yè)務(wù)操作員具體推進(jìn)數(shù)據(jù)治理的實(shí)施。戰(zhàn)略決策者制定企業(yè)大數(shù)據(jù)發(fā)展的重要戰(zhàn)略和決策,其主要人員往往是企業(yè)的決策和高層管理人員,如企業(yè)技術(shù)總監(jiān)、首席數(shù)據(jù)官和首席架構(gòu)師等。戰(zhàn)略決策層實(shí)施大數(shù)據(jù)治理的動(dòng)力在于利用大數(shù)據(jù)輔助企業(yè)高層管理者制定重大決策,支持企業(yè)風(fēng)險(xiǎn)管控、價(jià)值實(shí)現(xiàn)和服務(wù)創(chuàng)新,從而建立并保持企業(yè)的競(jìng)爭優(yōu)勢(shì)。業(yè)務(wù)管理者一般是IT項(xiàng)目經(jīng)理、IT部門主管或者IT部門經(jīng)理,負(fù)責(zé)企業(yè)的具體運(yùn)作和管理任務(wù)。業(yè)務(wù)管理者在數(shù)據(jù)治理實(shí)施過程中負(fù)責(zé)提升企業(yè)IT管理水平,降低數(shù)據(jù)的運(yùn)營成本,提高數(shù)據(jù)的客戶服務(wù)水平,控制數(shù)據(jù)管理的風(fēng)險(xiǎn)等。業(yè)務(wù)操作員一般不具有監(jiān)督和管理的職責(zé),通常負(fù)責(zé)執(zhí)行具體的工作。在業(yè)務(wù)操作層,大數(shù)據(jù)治理實(shí)施的動(dòng)力就是規(guī)范和優(yōu)化大數(shù)據(jù)應(yīng)用的活動(dòng)和流程,提升大數(shù)據(jù)的業(yè)務(wù)處理水平,具體包括大數(shù)據(jù)應(yīng)用的效果和質(zhì)量,大數(shù)據(jù)應(yīng)用的可持續(xù)性、時(shí)效性、有效性和可靠性等。通過有效的人員組織,將會(huì)大大提高數(shù)據(jù)治理落地速度和實(shí)施效果。
3.大數(shù)據(jù)治理的成熟度評(píng)估
大數(shù)據(jù)治理過程中,通過成熟度評(píng)估可以了解當(dāng)前大數(shù)據(jù)治理實(shí)施的狀態(tài)和實(shí)施方向,認(rèn)識(shí)數(shù)據(jù)治理的重要性,為實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化提供依據(jù),幫助企業(yè)管理者更智慧地經(jīng)營和決策,以達(dá)到確保數(shù)據(jù)的及時(shí)性、高品質(zhì)、可分享性和一致性的目的。達(dá)成這些目標(biāo)對(duì)實(shí)現(xiàn)靈活的商業(yè)運(yùn)營和成果豐富的數(shù)據(jù)分析至關(guān)重要,進(jìn)而才能據(jù)此做出針對(duì)性精準(zhǔn)的商業(yè)決策。因此,大數(shù)據(jù)治理的成熟度評(píng)估是大數(shù)據(jù)治理成功實(shí)施的至關(guān)重要的一步。
根據(jù)能力成熟度模型提供的分類方法,可以將成熟度分為5個(gè)等級(jí):1級(jí)為初始級(jí),此時(shí)流程通常是臨時(shí)的,整體環(huán)境不夠穩(wěn)定;2級(jí)為受管級(jí),實(shí)施成功是可重復(fù)發(fā)生的,但可能無法針對(duì)組織中所有項(xiàng)目重復(fù)流程,存在基本的項(xiàng)目管理和流程規(guī)則,但仍有超出預(yù)期成本和時(shí)間的風(fēng)險(xiǎn);3級(jí)為定義級(jí),建立了標(biāo)準(zhǔn)流程集,通過組織的標(biāo)準(zhǔn)流程集定制標(biāo)準(zhǔn)、流程描述和項(xiàng)目流程,以適應(yīng)特定項(xiàng)目或組織單位;4級(jí)為定量管理級(jí),對(duì)流程進(jìn)行定量度量和控制,所選的子流程大大提高了整體流程績效;5級(jí)為優(yōu)化級(jí),在該級(jí)明確了組織的定量流程改進(jìn)目標(biāo),并不斷優(yōu)化,以適應(yīng)變化的業(yè)務(wù)目標(biāo)。
IBM數(shù)據(jù)治理成熟度模型共使用了11個(gè)類別來度量數(shù)據(jù)治理能力,11個(gè)類別又分為4個(gè)相互關(guān)聯(lián)的組。
1)數(shù)據(jù)風(fēng)險(xiǎn)管理及合規(guī)性:確定數(shù)據(jù)治理與風(fēng)險(xiǎn)管理關(guān)聯(lián)度,用來量化、跟蹤、避免或轉(zhuǎn)移風(fēng)險(xiǎn)等。
2)價(jià)值創(chuàng)造:確定數(shù)據(jù)資產(chǎn)是否能幫助企業(yè)創(chuàng)造更大價(jià)值。
3)組織結(jié)構(gòu)和意識(shí):主要用來評(píng)估企業(yè)針對(duì)數(shù)據(jù)治理是否擁有合適的數(shù)據(jù)治理委員會(huì)、數(shù)據(jù)治理工作組和全職的數(shù)據(jù)治理人員,是否建立了數(shù)據(jù)治理規(guī)章以及高級(jí)主管對(duì)數(shù)據(jù)是否重視等。
4)管理工作:是指質(zhì)量控制規(guī)程,用來管理數(shù)據(jù)以實(shí)現(xiàn)資產(chǎn)增值和風(fēng)險(xiǎn)控制等。
5)策略:為企業(yè)如何管理數(shù)據(jù)在高級(jí)別上指明方向。
6)數(shù)據(jù)質(zhì)量管理:主要指用來提高數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)準(zhǔn)確性、一致性和完整性的各種方法。
7)信息生命周期管理:主要指對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)信息化全生命周期管理相關(guān)的策略、流程和分類等。
8)信息安全與隱私:主要指保護(hù)數(shù)據(jù)資產(chǎn)、降低風(fēng)險(xiǎn)的各種策略、實(shí)踐和控制方法。
9)數(shù)據(jù)架構(gòu):是指系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì),支持向適當(dāng)用戶提供和分配數(shù)據(jù)。
10)分類與元數(shù)據(jù):是指用于業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)以及元模型、存儲(chǔ)庫創(chuàng)建通用語義定義的方法和工具。
11)審計(jì)信息記錄與報(bào)告:是指與數(shù)據(jù)審計(jì)、內(nèi)部控制、合規(guī)和監(jiān)控超級(jí)用戶等有關(guān)的管理流程。
可以通過回答問題來評(píng)估企業(yè)當(dāng)前數(shù)據(jù)治理的成熟度。例如是否已經(jīng)確定了大數(shù)據(jù)治理計(jì)劃的關(guān)鍵業(yè)務(wù)相關(guān)人員、是否能對(duì)大數(shù)據(jù)治理提供的財(cái)務(wù)收益進(jìn)行量化等問題。上述數(shù)據(jù)治理成熟度模型如圖1-6所示。

圖1-6 IBM成熟度模型
4.大數(shù)據(jù)治理的審計(jì)
審計(jì)是成功實(shí)施大數(shù)據(jù)治理的基礎(chǔ),以第三方的客觀立場(chǎng)對(duì)大數(shù)據(jù)治理過程進(jìn)行綜合檢查、監(jiān)督和評(píng)價(jià),并給出詳細(xì)的、有價(jià)值的審計(jì)意見,促進(jìn)大數(shù)據(jù)治理的規(guī)范性,保證大數(shù)據(jù)的一致性、可靠性、有效性和安全性,進(jìn)一步提升大數(shù)據(jù)的利用價(jià)值,有助于對(duì)大數(shù)據(jù)治理實(shí)施提供指導(dǎo)性意見,以及為企業(yè)發(fā)展的戰(zhàn)略決策提供可靠依據(jù)。大數(shù)據(jù)治理審計(jì)不僅可以提高大數(shù)據(jù)治理的實(shí)施水平,從更全面的視角為大數(shù)據(jù)治理提供實(shí)施意見,而且大數(shù)據(jù)治理審計(jì)還可以滿足企業(yè)監(jiān)管的需要,可以改善大數(shù)據(jù)在治理過程中的安全和隱私。大數(shù)據(jù)審計(jì)的對(duì)象稱為審計(jì)客體,即在數(shù)據(jù)治理工程中被作用的對(duì)象,這類對(duì)象不僅包括大數(shù)據(jù)治理的整個(gè)生命周期,還應(yīng)該涵蓋大數(shù)據(jù)在治理過程中的中間產(chǎn)物,以及進(jìn)行大數(shù)據(jù)治理的實(shí)施環(huán)境。大數(shù)據(jù)審計(jì)的內(nèi)容主要包含數(shù)據(jù)一致性的審計(jì)、數(shù)據(jù)風(fēng)險(xiǎn)的審計(jì)、數(shù)據(jù)安全與隱私的審計(jì)、數(shù)據(jù)處理過程的審計(jì)、數(shù)據(jù)質(zhì)量的審計(jì)、數(shù)據(jù)生命周期的審計(jì)等。進(jìn)行大數(shù)據(jù)治理的審計(jì)主要是讓企業(yè)了解大數(shù)據(jù)治理活動(dòng)的總體情況,對(duì)企業(yè)數(shù)據(jù)的總體價(jià)值利用情況進(jìn)行把握,提前準(zhǔn)備應(yīng)對(duì)數(shù)據(jù)治理過程中的相關(guān)風(fēng)險(xiǎn),并提出評(píng)價(jià)意見和改進(jìn)意見,可以提供給組織用于改善經(jīng)營管理,促進(jìn)實(shí)現(xiàn)大數(shù)據(jù)治理的目標(biāo)。
總之,大數(shù)據(jù)治理的審計(jì)工作在最大化實(shí)現(xiàn)數(shù)據(jù)價(jià)值過程中必不可少,它能夠全面地、在更高層次來評(píng)價(jià)企業(yè)的大數(shù)據(jù)治理情況,客觀地顯示大數(shù)據(jù)治理的生命周期管理水平,從而提高企業(yè)預(yù)防大數(shù)據(jù)風(fēng)險(xiǎn)的能力,滿足企業(yè)發(fā)展的需要。
- Python金融大數(shù)據(jù)分析(第2版)
- R數(shù)據(jù)科學(xué)實(shí)戰(zhàn):工具詳解與案例分析(鮮讀版)
- 商業(yè)分析思維與實(shí)踐:用數(shù)據(jù)分析解決商業(yè)問題
- Lean Mobile App Development
- 數(shù)據(jù)庫程序員面試筆試真題庫
- Proxmox VE超融合集群實(shí)踐真?zhèn)?/a>
- 數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)實(shí)例
- SAS金融數(shù)據(jù)挖掘與建模:系統(tǒng)方法與案例解析
- 數(shù)據(jù)庫技術(shù)及應(yīng)用
- 數(shù)據(jù)修復(fù)技術(shù)與典型實(shí)例實(shí)戰(zhàn)詳解(第2版)
- MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用
- 大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲(chǔ)、處理、分析與應(yīng)用
- 從實(shí)踐中學(xué)習(xí)sqlmap數(shù)據(jù)庫注入測(cè)試
- 企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶搜索行為分析系統(tǒng)從0到1
- 云工作時(shí)代:科技進(jìn)化必將帶來的新工作方式