書名: 大數據治理與安全:從理論到開源實踐作者名: 劉馳等本章字數: 10字更新時間: 2019-01-02 20:48:30
第1章
大數據治理技術
1.1 概述
1.1.1 大數據治理的基本概念
現如今,我們已被數據包圍,數據正在逐漸將我們淹沒。來自于社交媒體、網絡日志、GPS信號、RFID標簽、網絡音頻、數字圖片等方面的數據撲面而來。大數據被炒得火熱,大數據時代已然來臨。而大數據本身是一個比較抽象的概念,如果我們僅僅從字面來理解,它表示數據規模的龐大。但是僅僅數量上的龐大這一簡單的理解顯得有些狹隘,難以區分這一概念和以往的“海量數據”“超大規模數據”等概念的區別。而現如今,當談到大數據定義時都運用比較有代表性的3V定義,即認為大數據需滿足以下3個特點:規模性(Volume)、多樣性(Variety)和高速性(Velocity)。而IDC認為還應該添加數據具有的價值性(Value), IBM認為大數據必然具有真實性(Veracity)。當然每個人對大數據有不同的理解,當我們面對實際問題時,沒必要拘泥于這些現有的定義,只要符合業務規則即可。
伴隨著網絡和信息技術的不斷發展與普及,人類產生的數據量正在呈指數級增長,在歷史上從未有哪個時代產生如此海量的數據。數據的產生已經完全不受時間、地點的限制,大約每兩年就會翻一倍,換句話說,每兩年產生的數據量相當于之前產生的全部數據量。并且根據現有的數據量監測,這個速度還會在很長一段時間內保持下去。信息數據的單位由TB→PB→EB→ZB的級別暴增,而這樣的數據很明顯已經遠遠超出了我們人力所能處理的范圍,因此大數據應運而生。它的重要性也因此而得之。
伴隨著數據行業的昌盛發展,很自然就產生了一個對應的問題:這些數據作為原材料應該怎么管理?雖然數據管理并不新鮮,很早以前我們也一直在做,但隨著數據爆炸性地呈指數級增長,我們如今所講的數據和以往已經大大不同。而這也不僅僅體現在數據的大小上,同時也體現在數據的內容、來源、結構上。舉個簡單的例子,現如今Facebook的日均新增數據量可達600TB左右,未來必然會更高。那么處理如此大量的數據,我們不禁要問:以往的算法還可能嗎?應用還能正常運行嗎?答案是否定的。隨著數據的變化,我們的算法也要升級,同樣,我們以往的數據管理方式與思路也無法完全適應,也需要創新。因此大數據治理的概念應運而生。
既然已提出大數據治理的概念,那么它應該和大數據管理有明顯的區別。COBIT5對兩者進行了精準的區分定義。
1.管理定義
管理(Management)是指按照治理機構設定的方向展開計劃、建設、運營和監控活動,以實現企業目標。
基于此定義,管理包含計劃、建設、運營和監控4個關鍵活動,并且活動必須符合治理機構所設定的方向和目標。
2.治理定義
治理(Governance)是指評估利益相關者的需求、條件和選擇以達成平衡一致的企業目標,通過優先排序和決策機制來設定方向,然后根據方向和目標來監督績效與規范。
基于此定義,治理包括評估、指導和監督3個關鍵活動,并且輸出結果與設定方向必須和預期的目標一致。
從上述定義可做如下總結。
1)關鍵活動不同:管理包含計劃、建設、運營和監控4個關鍵活動,治理包含評估、治理和監督3個關鍵活動。
2)過程不同:根據COBIT 5的定義,管理包括4個域,APO(調整、計劃和組織)、BAI(建立、獲取和實施)、DSS(交付、服務和支持)、MEA(監視、評價和評估),每個域又包含若干個流程。而治理包含如下過程,框架的設置與維護、確保資源化、風險化、收益交付、利益相關透明。
3)分工不同:治理相當于決策者,制定決策;管理相當于執行者,負責制定和實施決策的過程。
目前最權威的大數據治理的定義由桑尼爾·索雷斯提出,主要包含如下6個部分:
1)大數據治理應該被納入現有的信息治理框架內。
2)大數據治理的工作就是制定策略。
3)大數據必須被優化。
4)大數據的隱私保護很重要。
5)大數據必須被貨幣化,即創造商業價值。
6)大數據治理必須協調好多個職能部門的目標和利益。
根據上述相關定義可知,為了形成有效的治理體系,治理和管理必須相互作用,相互配合,才能取得最優效果。很多技術上的相關領域涉及治理框架、數據優化、隱私保護等。
大數據的大規模性、高速性和多樣性等特征,使得它不同于小量數據。將小量數據的隱私保護方法用在大數據上會有很大的局限性:大數據的多樣性帶來的多源數據融合使得傳統的匿名化和模糊化技術幾乎無法生效;大數據的大規模性與高速性帶來的實時性分析使得傳統的加密和密碼學技術遇到了極大的瓶頸。此外,大規模的數據采集技術、新型存儲技術以及高級分析技術使得大數據的隱私保護面臨更大的挑戰。因此數據的隱私保護與安全也是大數據治理的重要關注點之一。
而在數據治理的框架下,元數據的管理也顯得尤為重要。元數據按照數據類別信息進行區分可分為技術元數據與業務元數據。
技術元數據是存儲關于數據倉庫系統技術細節的數據,是開發和管理數據倉庫的使用的數據,它主要包括以下信息:數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集的位置和內容;業務系統、數據倉庫和數據集的體系結構和模式。
業務元數據從業務角度描述了數據倉庫中的數據,它提供了介于使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠“讀懂”數據倉庫中的數據。業務元數據主要包括以下信息:使用者的業務術語所表達的數據模型、對象名和屬性名;訪問數據的原則和數據的來源;系統所提供的分析方法以及公式和報表的信息。還包括企業概念模型,這是業務元數據所應提供的重要信息,它表示企業數據模型的高層信息、整個企業的業務概念和相互關系。

圖1-1 大數據安全與治理體系
而對于元數據的管理又可分為以下兩部分。
1)數據質量的管理:就像超市對物品進行清理一樣,我們的數據也需要定期清理。
2)信息生命周期的管理:對大數據進行存檔,并在沒必要繼續保存某些數據時將它刪除。
大數據安全與治理體系下需要解決的問題如圖1-1所示。
本書中,通過將Apache的Ranger、Atlas、Falcon以及Hadoop生態下的其他組件進行整合,形成完整的大數據安全與治理體系,以此來完成安全與隱私保護、元數據管理、數據生命周期管理等問題。本書中的大數據治理框架如圖1-2所示。讀者初看時可能難以有清晰直觀的認識,當讀完本書再回頭觀看此圖時定會有不一樣的理解。

圖1-2 大數據治理框架
大數據的快速發展,使它成為IT領域的又一大新興產業。據估算,國外大數據行業約有1000億美元的市場,而且每年以10%的速度增長,增速是軟件行業的2倍。而我國的大數據行業因起步稍晚,增速更為迅猛。而目前中國政府和企業對數據治理的重視程度也不斷提升,在通信行業、銀行行業、能源行業、互聯網行業都已經開展了大數據治理的相關工作。在這個過程中,學術界和工業界做了很多探索,建立了較為科學、完整的數據治理理論體系和框架。本文從理論到實踐引導讀者加深理解,上文所提及的治理框架、數據安全、隱私保護、數據質量管理、數據生命周期管理都將在實踐篇給出具體的實現。
1.1.2 大數據治理的意義和重要作用
如今,我們的生活已經被數據所淹沒,但是目前主流的軟件往往無法在合理的時間內完成對數據的擷取、管理、處理并整理成為幫助企業經營決策的重要資訊這些工作,而隨著數據量的逐步擴增,這一現象會更加明顯。所以企業經常要面對超出其基礎設施和流程處理能力的大量數據,而從數據中挖掘出對制定有效決策有實際價值的情報更是難上加難。如今,由于種類、數量日益成倍增加的數據從社交媒體及各種在線渠道洶涌而來,導致處理上述數據的迫切性也日益加強,企業面臨著更多的技術難題和挑戰。
大數據不斷從各種渠道、以多種格式涌入,其中蘊含著大量商業價值,但僅利用傳統的數據處理方法和技術無法處理它們。故而早在2009年年初,《大數據資產:智慧企業如何在數據治理中勝出》的作者Tony Fisher就指出,如果基礎數據不可靠,多數企業或大數據計劃會失敗,或者效果會低于預期。導致上述結果的關鍵原因是數據進入生命周期的不一致,數據不準確,數據不可靠。這些原因可能是多樣性的:
1)大數據計劃中的數據識別不完整。目前還不清楚如何獲取數據,如何使用數據,哪些業務目標要滿足,哪些人有權擁有數據。
2)數據收集和轉換沒有制定適當的標準、體系結構、元數據定義、數據所有權、策略和數據轉換規則。
3)數據傳輸在業務用戶上下文、安全性、數據和業務流程方面沒有正確定義。
那么大數據治理計劃的意義及其所包含的內容是什么呢?數據治理是指在企業數據生命整個周期(從數據采集到數據使用,直至數據存檔)中,制定由業務推動的數據政策、數據所有權、數據監控、數據標準以及指導方針。數據治理的重點在于,要將數據明確作為企業的一種資產看待。
更好的數據意味著更好的決策,這句話在一定程度上反映了數據領域內的主要關注點,在當今的大數據時代甚至更為真切。但它之所以成立的基本假定也未改變,那就是“基本數據是準確、可靠、值得信賴的,來龍去脈清楚,并且具有一致性”。如果沒有一個可靠的數據治理計劃,那么這條假定也無法成立。
我們都聽過諸如此類的說辭:“IT技術融入業務對我們的企業至關重要”“IT技術促成各種業務功能的實現”。但對企業上下進行實際的評估,能實現上述說辭的情況卻是屈指可數。對大多數企業而言,IT技術與各種業務目標之間仍存在差距,首席信息官及各高級主管仍在努力設法使IT技術能配合各種業務目標,從而促進企業戰略目標的實現。在對成功企業進行分析后,可以得出一個很明確的結論,那就是“有效的數據治理計劃”是成功企業的法寶。
任何大數據計劃都應該考慮數據的以下特性:數量大、種類多、產生頻率高、質量可靠性低、模糊性高。那么數據處理團隊想要完全識別、定義并分析這些數據,就要征詢企業各方利益相關者的意見。這樣做才能讓企業擁有者、數據擁有者以及數據治理部門在數據治理初期就避免一些錯誤,確保框架的正確搭建及實施,從而達到數據集規劃與業務流程緊密聯系且合理有效的目的。
現在,伴隨著大數據運用時代的到來,所謂“數據驅動”已然成為未來全世界的發展趨勢。現在大數據已經應用于全球的生產、分配及消費活動等,并且對于國家經濟的運營體制、社會民生和國家的治理生產、制造能力等都會產生非常重要的影響。在未來,國家之間的競爭可能會從資本和土地等資源的爭奪轉移到大數據的爭奪。所以,現在大數據已經成為每個國家的戰略資源的基礎設施,同時,大數據治理也成為多個國家提升現代治理能力的一個重要標桿。
隨著互聯網、云計算等網絡相關的新技術的不斷完善和知識普及,我們的社會已經進入大數據時代,大量數據的產生和流轉都將成為再平常不過的事。到2016年年底,全球近50%的人口在使用互聯網,人人都擁有一臺或多臺網絡終端設備,隨時隨地都可以上網,所以全球的數據量也在飛速增長。2020年,預計全球的數據使用量將會達到40ZB,每個行業都將產生并使用大數據,大數據也將成為發展的新趨勢。而大數據治理將為社會經濟能力發展提供新的動力。
在這個大數據時代,世界上各個國家都將大數據看作國家的核心資產。因此,對大數據的開發、利用和保護的概念就越來越強,可能還會產生對于大數據的爭奪。大數據概念的出現就使得國家的強弱對比不僅體現在經濟發展層面,還體現在一個國家大數據治理實力如何。所以對于大數據安全與治理的挑戰也才剛剛開始。
- 數據庫基礎教程(SQL Server平臺)
- Building Computer Vision Projects with OpenCV 4 and C++
- Test-Driven Development with Mockito
- Architects of Intelligence
- Python數據分析、挖掘與可視化從入門到精通
- 大數據:規劃、實施、運維
- Mockito Cookbook
- Chef Essentials
- 利用Python進行數據分析(原書第2版)
- 數據分析思維:產品經理的成長筆記
- AndEngine for Android Game Development Cookbook
- Oracle 11g數據庫管理與開發基礎教程
- Artificial Intelligence for Big Data
- Trino權威指南(原書第2版)
- 大數據架構師指南