- 大數(shù)據(jù)治理與安全:從理論到開源實踐
- 劉馳等
- 4432字
- 2019-01-02 20:48:31
第1章
大數(shù)據(jù)治理技術(shù)
1.1 概述
1.1.1 大數(shù)據(jù)治理的基本概念
現(xiàn)如今,我們已被數(shù)據(jù)包圍,數(shù)據(jù)正在逐漸將我們淹沒。來自于社交媒體、網(wǎng)絡(luò)日志、GPS信號、RFID標(biāo)簽、網(wǎng)絡(luò)音頻、數(shù)字圖片等方面的數(shù)據(jù)撲面而來。大數(shù)據(jù)被炒得火熱,大數(shù)據(jù)時代已然來臨。而大數(shù)據(jù)本身是一個比較抽象的概念,如果我們僅僅從字面來理解,它表示數(shù)據(jù)規(guī)模的龐大。但是僅僅數(shù)量上的龐大這一簡單的理解顯得有些狹隘,難以區(qū)分這一概念和以往的“海量數(shù)據(jù)”“超大規(guī)模數(shù)據(jù)”等概念的區(qū)別。而現(xiàn)如今,當(dāng)談到大數(shù)據(jù)定義時都運用比較有代表性的3V定義,即認為大數(shù)據(jù)需滿足以下3個特點:規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。而IDC認為還應(yīng)該添加數(shù)據(jù)具有的價值性(Value), IBM認為大數(shù)據(jù)必然具有真實性(Veracity)。當(dāng)然每個人對大數(shù)據(jù)有不同的理解,當(dāng)我們面對實際問題時,沒必要拘泥于這些現(xiàn)有的定義,只要符合業(yè)務(wù)規(guī)則即可。
伴隨著網(wǎng)絡(luò)和信息技術(shù)的不斷發(fā)展與普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,在歷史上從未有哪個時代產(chǎn)生如此海量的數(shù)據(jù)。數(shù)據(jù)的產(chǎn)生已經(jīng)完全不受時間、地點的限制,大約每兩年就會翻一倍,換句話說,每兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。并且根據(jù)現(xiàn)有的數(shù)據(jù)量監(jiān)測,這個速度還會在很長一段時間內(nèi)保持下去。信息數(shù)據(jù)的單位由TB→PB→EB→ZB的級別暴增,而這樣的數(shù)據(jù)很明顯已經(jīng)遠遠超出了我們?nèi)肆λ芴幚淼姆秶虼舜髷?shù)據(jù)應(yīng)運而生。它的重要性也因此而得之。
伴隨著數(shù)據(jù)行業(yè)的昌盛發(fā)展,很自然就產(chǎn)生了一個對應(yīng)的問題:這些數(shù)據(jù)作為原材料應(yīng)該怎么管理?雖然數(shù)據(jù)管理并不新鮮,很早以前我們也一直在做,但隨著數(shù)據(jù)爆炸性地呈指數(shù)級增長,我們?nèi)缃袼v的數(shù)據(jù)和以往已經(jīng)大大不同。而這也不僅僅體現(xiàn)在數(shù)據(jù)的大小上,同時也體現(xiàn)在數(shù)據(jù)的內(nèi)容、來源、結(jié)構(gòu)上。舉個簡單的例子,現(xiàn)如今Facebook的日均新增數(shù)據(jù)量可達600TB左右,未來必然會更高。那么處理如此大量的數(shù)據(jù),我們不禁要問:以往的算法還可能嗎?應(yīng)用還能正常運行嗎?答案是否定的。隨著數(shù)據(jù)的變化,我們的算法也要升級,同樣,我們以往的數(shù)據(jù)管理方式與思路也無法完全適應(yīng),也需要創(chuàng)新。因此大數(shù)據(jù)治理的概念應(yīng)運而生。
既然已提出大數(shù)據(jù)治理的概念,那么它應(yīng)該和大數(shù)據(jù)管理有明顯的區(qū)別。COBIT5對兩者進行了精準(zhǔn)的區(qū)分定義。
1.管理定義
管理(Management)是指按照治理機構(gòu)設(shè)定的方向展開計劃、建設(shè)、運營和監(jiān)控活動,以實現(xiàn)企業(yè)目標(biāo)。
基于此定義,管理包含計劃、建設(shè)、運營和監(jiān)控4個關(guān)鍵活動,并且活動必須符合治理機構(gòu)所設(shè)定的方向和目標(biāo)。
2.治理定義
治理(Governance)是指評估利益相關(guān)者的需求、條件和選擇以達成平衡一致的企業(yè)目標(biāo),通過優(yōu)先排序和決策機制來設(shè)定方向,然后根據(jù)方向和目標(biāo)來監(jiān)督績效與規(guī)范。
基于此定義,治理包括評估、指導(dǎo)和監(jiān)督3個關(guān)鍵活動,并且輸出結(jié)果與設(shè)定方向必須和預(yù)期的目標(biāo)一致。
從上述定義可做如下總結(jié)。
1)關(guān)鍵活動不同:管理包含計劃、建設(shè)、運營和監(jiān)控4個關(guān)鍵活動,治理包含評估、治理和監(jiān)督3個關(guān)鍵活動。
2)過程不同:根據(jù)COBIT 5的定義,管理包括4個域,APO(調(diào)整、計劃和組織)、BAI(建立、獲取和實施)、DSS(交付、服務(wù)和支持)、MEA(監(jiān)視、評價和評估),每個域又包含若干個流程。而治理包含如下過程,框架的設(shè)置與維護、確保資源化、風(fēng)險化、收益交付、利益相關(guān)透明。
3)分工不同:治理相當(dāng)于決策者,制定決策;管理相當(dāng)于執(zhí)行者,負責(zé)制定和實施決策的過程。
目前最權(quán)威的大數(shù)據(jù)治理的定義由桑尼爾·索雷斯提出,主要包含如下6個部分:
1)大數(shù)據(jù)治理應(yīng)該被納入現(xiàn)有的信息治理框架內(nèi)。
2)大數(shù)據(jù)治理的工作就是制定策略。
3)大數(shù)據(jù)必須被優(yōu)化。
4)大數(shù)據(jù)的隱私保護很重要。
5)大數(shù)據(jù)必須被貨幣化,即創(chuàng)造商業(yè)價值。
6)大數(shù)據(jù)治理必須協(xié)調(diào)好多個職能部門的目標(biāo)和利益。
根據(jù)上述相關(guān)定義可知,為了形成有效的治理體系,治理和管理必須相互作用,相互配合,才能取得最優(yōu)效果。很多技術(shù)上的相關(guān)領(lǐng)域涉及治理框架、數(shù)據(jù)優(yōu)化、隱私保護等。
大數(shù)據(jù)的大規(guī)模性、高速性和多樣性等特征,使得它不同于小量數(shù)據(jù)。將小量數(shù)據(jù)的隱私保護方法用在大數(shù)據(jù)上會有很大的局限性:大數(shù)據(jù)的多樣性帶來的多源數(shù)據(jù)融合使得傳統(tǒng)的匿名化和模糊化技術(shù)幾乎無法生效;大數(shù)據(jù)的大規(guī)模性與高速性帶來的實時性分析使得傳統(tǒng)的加密和密碼學(xué)技術(shù)遇到了極大的瓶頸。此外,大規(guī)模的數(shù)據(jù)采集技術(shù)、新型存儲技術(shù)以及高級分析技術(shù)使得大數(shù)據(jù)的隱私保護面臨更大的挑戰(zhàn)。因此數(shù)據(jù)的隱私保護與安全也是大數(shù)據(jù)治理的重要關(guān)注點之一。
而在數(shù)據(jù)治理的框架下,元數(shù)據(jù)的管理也顯得尤為重要。元數(shù)據(jù)按照數(shù)據(jù)類別信息進行區(qū)分可分為技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細節(jié)的數(shù)據(jù),是開發(fā)和管理數(shù)據(jù)倉庫的使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集的體系結(jié)構(gòu)和模式。
業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報表的信息。還包括企業(yè)概念模型,這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個企業(yè)的業(yè)務(wù)概念和相互關(guān)系。

圖1-1 大數(shù)據(jù)安全與治理體系
而對于元數(shù)據(jù)的管理又可分為以下兩部分。
1)數(shù)據(jù)質(zhì)量的管理:就像超市對物品進行清理一樣,我們的數(shù)據(jù)也需要定期清理。
2)信息生命周期的管理:對大數(shù)據(jù)進行存檔,并在沒必要繼續(xù)保存某些數(shù)據(jù)時將它刪除。
大數(shù)據(jù)安全與治理體系下需要解決的問題如圖1-1所示。
本書中,通過將Apache的Ranger、Atlas、Falcon以及Hadoop生態(tài)下的其他組件進行整合,形成完整的大數(shù)據(jù)安全與治理體系,以此來完成安全與隱私保護、元數(shù)據(jù)管理、數(shù)據(jù)生命周期管理等問題。本書中的大數(shù)據(jù)治理框架如圖1-2所示。讀者初看時可能難以有清晰直觀的認識,當(dāng)讀完本書再回頭觀看此圖時定會有不一樣的理解。

圖1-2 大數(shù)據(jù)治理框架
大數(shù)據(jù)的快速發(fā)展,使它成為IT領(lǐng)域的又一大新興產(chǎn)業(yè)。據(jù)估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場,而且每年以10%的速度增長,增速是軟件行業(yè)的2倍。而我國的大數(shù)據(jù)行業(yè)因起步稍晚,增速更為迅猛。而目前中國政府和企業(yè)對數(shù)據(jù)治理的重視程度也不斷提升,在通信行業(yè)、銀行行業(yè)、能源行業(yè)、互聯(lián)網(wǎng)行業(yè)都已經(jīng)開展了大數(shù)據(jù)治理的相關(guān)工作。在這個過程中,學(xué)術(shù)界和工業(yè)界做了很多探索,建立了較為科學(xué)、完整的數(shù)據(jù)治理理論體系和框架。本文從理論到實踐引導(dǎo)讀者加深理解,上文所提及的治理框架、數(shù)據(jù)安全、隱私保護、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)生命周期管理都將在實踐篇給出具體的實現(xiàn)。
1.1.2 大數(shù)據(jù)治理的意義和重要作用
如今,我們的生活已經(jīng)被數(shù)據(jù)所淹沒,但是目前主流的軟件往往無法在合理的時間內(nèi)完成對數(shù)據(jù)的擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策的重要資訊這些工作,而隨著數(shù)據(jù)量的逐步擴增,這一現(xiàn)象會更加明顯。所以企業(yè)經(jīng)常要面對超出其基礎(chǔ)設(shè)施和流程處理能力的大量數(shù)據(jù),而從數(shù)據(jù)中挖掘出對制定有效決策有實際價值的情報更是難上加難。如今,由于種類、數(shù)量日益成倍增加的數(shù)據(jù)從社交媒體及各種在線渠道洶涌而來,導(dǎo)致處理上述數(shù)據(jù)的迫切性也日益加強,企業(yè)面臨著更多的技術(shù)難題和挑戰(zhàn)。
大數(shù)據(jù)不斷從各種渠道、以多種格式涌入,其中蘊含著大量商業(yè)價值,但僅利用傳統(tǒng)的數(shù)據(jù)處理方法和技術(shù)無法處理它們。故而早在2009年年初,《大數(shù)據(jù)資產(chǎn):智慧企業(yè)如何在數(shù)據(jù)治理中勝出》的作者Tony Fisher就指出,如果基礎(chǔ)數(shù)據(jù)不可靠,多數(shù)企業(yè)或大數(shù)據(jù)計劃會失敗,或者效果會低于預(yù)期。導(dǎo)致上述結(jié)果的關(guān)鍵原因是數(shù)據(jù)進入生命周期的不一致,數(shù)據(jù)不準(zhǔn)確,數(shù)據(jù)不可靠。這些原因可能是多樣性的:
1)大數(shù)據(jù)計劃中的數(shù)據(jù)識別不完整。目前還不清楚如何獲取數(shù)據(jù),如何使用數(shù)據(jù),哪些業(yè)務(wù)目標(biāo)要滿足,哪些人有權(quán)擁有數(shù)據(jù)。
2)數(shù)據(jù)收集和轉(zhuǎn)換沒有制定適當(dāng)?shù)臉?biāo)準(zhǔn)、體系結(jié)構(gòu)、元數(shù)據(jù)定義、數(shù)據(jù)所有權(quán)、策略和數(shù)據(jù)轉(zhuǎn)換規(guī)則。
3)數(shù)據(jù)傳輸在業(yè)務(wù)用戶上下文、安全性、數(shù)據(jù)和業(yè)務(wù)流程方面沒有正確定義。
那么大數(shù)據(jù)治理計劃的意義及其所包含的內(nèi)容是什么呢?數(shù)據(jù)治理是指在企業(yè)數(shù)據(jù)生命整個周期(從數(shù)據(jù)采集到數(shù)據(jù)使用,直至數(shù)據(jù)存檔)中,制定由業(yè)務(wù)推動的數(shù)據(jù)政策、數(shù)據(jù)所有權(quán)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)標(biāo)準(zhǔn)以及指導(dǎo)方針。數(shù)據(jù)治理的重點在于,要將數(shù)據(jù)明確作為企業(yè)的一種資產(chǎn)看待。
更好的數(shù)據(jù)意味著更好的決策,這句話在一定程度上反映了數(shù)據(jù)領(lǐng)域內(nèi)的主要關(guān)注點,在當(dāng)今的大數(shù)據(jù)時代甚至更為真切。但它之所以成立的基本假定也未改變,那就是“基本數(shù)據(jù)是準(zhǔn)確、可靠、值得信賴的,來龍去脈清楚,并且具有一致性”。如果沒有一個可靠的數(shù)據(jù)治理計劃,那么這條假定也無法成立。
我們都聽過諸如此類的說辭:“IT技術(shù)融入業(yè)務(wù)對我們的企業(yè)至關(guān)重要”“IT技術(shù)促成各種業(yè)務(wù)功能的實現(xiàn)”。但對企業(yè)上下進行實際的評估,能實現(xiàn)上述說辭的情況卻是屈指可數(shù)。對大多數(shù)企業(yè)而言,IT技術(shù)與各種業(yè)務(wù)目標(biāo)之間仍存在差距,首席信息官及各高級主管仍在努力設(shè)法使IT技術(shù)能配合各種業(yè)務(wù)目標(biāo),從而促進企業(yè)戰(zhàn)略目標(biāo)的實現(xiàn)。在對成功企業(yè)進行分析后,可以得出一個很明確的結(jié)論,那就是“有效的數(shù)據(jù)治理計劃”是成功企業(yè)的法寶。
任何大數(shù)據(jù)計劃都應(yīng)該考慮數(shù)據(jù)的以下特性:數(shù)量大、種類多、產(chǎn)生頻率高、質(zhì)量可靠性低、模糊性高。那么數(shù)據(jù)處理團隊想要完全識別、定義并分析這些數(shù)據(jù),就要征詢企業(yè)各方利益相關(guān)者的意見。這樣做才能讓企業(yè)擁有者、數(shù)據(jù)擁有者以及數(shù)據(jù)治理部門在數(shù)據(jù)治理初期就避免一些錯誤,確??蚣艿恼_搭建及實施,從而達到數(shù)據(jù)集規(guī)劃與業(yè)務(wù)流程緊密聯(lián)系且合理有效的目的。
現(xiàn)在,伴隨著大數(shù)據(jù)運用時代的到來,所謂“數(shù)據(jù)驅(qū)動”已然成為未來全世界的發(fā)展趨勢?,F(xiàn)在大數(shù)據(jù)已經(jīng)應(yīng)用于全球的生產(chǎn)、分配及消費活動等,并且對于國家經(jīng)濟的運營體制、社會民生和國家的治理生產(chǎn)、制造能力等都會產(chǎn)生非常重要的影響。在未來,國家之間的競爭可能會從資本和土地等資源的爭奪轉(zhuǎn)移到大數(shù)據(jù)的爭奪。所以,現(xiàn)在大數(shù)據(jù)已經(jīng)成為每個國家的戰(zhàn)略資源的基礎(chǔ)設(shè)施,同時,大數(shù)據(jù)治理也成為多個國家提升現(xiàn)代治理能力的一個重要標(biāo)桿。
隨著互聯(lián)網(wǎng)、云計算等網(wǎng)絡(luò)相關(guān)的新技術(shù)的不斷完善和知識普及,我們的社會已經(jīng)進入大數(shù)據(jù)時代,大量數(shù)據(jù)的產(chǎn)生和流轉(zhuǎn)都將成為再平常不過的事。到2016年年底,全球近50%的人口在使用互聯(lián)網(wǎng),人人都擁有一臺或多臺網(wǎng)絡(luò)終端設(shè)備,隨時隨地都可以上網(wǎng),所以全球的數(shù)據(jù)量也在飛速增長。2020年,預(yù)計全球的數(shù)據(jù)使用量將會達到40ZB,每個行業(yè)都將產(chǎn)生并使用大數(shù)據(jù),大數(shù)據(jù)也將成為發(fā)展的新趨勢。而大數(shù)據(jù)治理將為社會經(jīng)濟能力發(fā)展提供新的動力。
在這個大數(shù)據(jù)時代,世界上各個國家都將大數(shù)據(jù)看作國家的核心資產(chǎn)。因此,對大數(shù)據(jù)的開發(fā)、利用和保護的概念就越來越強,可能還會產(chǎn)生對于大數(shù)據(jù)的爭奪。大數(shù)據(jù)概念的出現(xiàn)就使得國家的強弱對比不僅體現(xiàn)在經(jīng)濟發(fā)展層面,還體現(xiàn)在一個國家大數(shù)據(jù)治理實力如何。所以對于大數(shù)據(jù)安全與治理的挑戰(zhàn)也才剛剛開始。
- 數(shù)據(jù)庫基礎(chǔ)教程(SQL Server平臺)
- MySQL高可用解決方案:從主從復(fù)制到InnoDB Cluster架構(gòu)
- 數(shù)據(jù)庫基礎(chǔ)與應(yīng)用:Access 2010
- SQL Server 2008數(shù)據(jù)庫應(yīng)用技術(shù)(第二版)
- 智能數(shù)據(jù)分析:入門、實戰(zhàn)與平臺構(gòu)建
- MySQL 8.x從入門到精通(視頻教學(xué)版)
- 大數(shù)據(jù)架構(gòu)商業(yè)之路:從業(yè)務(wù)需求到技術(shù)方案
- 大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用
- Oracle高性能SQL引擎剖析:SQL優(yōu)化與調(diào)優(yōu)機制詳解
- 企業(yè)大數(shù)據(jù)處理:Spark、Druid、Flume與Kafka應(yīng)用實踐
- PostgreSQL高可用實戰(zhàn)
- Google Cloud Platform for Architects
- 數(shù)據(jù)中臺實戰(zhàn):手把手教你搭建數(shù)據(jù)中臺
- Delphi High Performance
- C# 7 and .NET Core 2.0 High Performance