- 大數據治理與安全:從理論到開源實踐
- 劉馳等
- 1755字
- 2019-01-02 20:48:30
前言
在大數據時代,隨著信息量與日俱增,數據價值也得到越來越多人的認可。但大數據在迅猛發展的同時也帶來不少問題,如怎樣管理數據、實現數據價值最大化等,這些問題始終未得到完美的解答。在不同時間段,針對不同業務需求,數據的價值也不盡相同。為了最大化大數據的價值,互聯網數據共享不可避免。然而,由于各個企業和部門之間相互獨立,數據所在的系統甚至數據存儲結構存在較大差異,數據之間難以進行信息共享,從而造成信息孤島這一普遍現象。同時,互聯網龐大的使用群體,也使得互聯網數據在實現共享時,難以保障數據的安全性以及數據隱私。
為了解決這些問題,大數據治理與安全成為當下學術界與工業界最熱門的研究領域之一。大數據治理主要在于建立一個統一標準化平臺,從不同數據源中獲取數據,在對數據進行生命周期管理的同時允許各方對數據進行相應操作(例如數據審計、數據篩選以及數據遷移等),從而實現數據價值最大化。而在數據業務流程中,這個統一標準化平臺能夠針對不同用戶,根據不同的時間點以及IP地址,對不同的元數據進行權限設置,以保證數據使用的安全性。
本書總體分為兩部分。第一篇:理論篇,包括第1章和第2章。第1章從大數據治理的概念以及作用兩方面,闡述大數據治理的重要性,并對大數據治理的原則、范圍及評估內容做了詳盡介紹。第2章從大數據安全、隱私和審計三個方面出發,探討了大數據安全所面臨的挑戰與問題,以及解決這些問題的技術與方案。
第二篇:開源實現篇,包括第3~7章。作者對開源社區中的大數據治理與安全相關的開源項目做了充分的介紹和實踐,將內容根據不同組件分類,匯總成為該篇的主要內容。該篇全面介紹了Apache Falcon、Apache Atlas、Apache Ranger、Apache Sentry與Kerberos等大數據治理與安全開源組件的技術概況、配置與使用、場景設計與實現以及具體應用舉例等多方面的內容。
第3章深入介紹建立在Hadoop環境下的數據過程及數據集管理系統Apache Falcon的技術概況與架構特點。在此基礎上,對集群上進行數據保留、生命周期管理、數據血統及追蹤等功能進行介紹。并且設計與實現了日常生產環境中可能用到的數據處理場景,可作為相關從業者的參考。最后作者舉例說明了Falcon在數據流程管理領域的使用前景。
第4章全面介紹元數據管理框架Apache Atlas的技術概況、配置使用與具體使用場景等核心內容。本章首先介紹Apache Atlas在元數據管理方面的突出優勢,進而對Hive、Sqoop、Storm及Falcon等多種元數據導入方式進行了介紹,并對元數據的管理做了十分深入的闡述。在此基礎上,對Atlas的實時數據、非實時數據等元數據管理場景進行了設計與實現,可以作為類似場景下構建與使用的參考。
第5章講述安全認證框架Apache Ranger的技術概況、發展近況、插件集成和功能驗證等內容。本章首先介紹Apache Ranger在Hadoop生態系統中實施安全認證的優勢和特點,并對Hadoop生態組件如HDFS、Hive、HBase等如何進行安全數據訪問控制做出詳細闡述。最后給出了Ranger四種不同策略的實際場景,對其安全功能進行了驗證。
第6章對Cloudera公司發布的高度模塊化的權限管理組件Apache Sentry做了深入的介紹,彌補了Hadoop文件系統HDFS缺乏對數據和元數據細粒度權限訪問支持的問題。從Sentry的特點、優勢、發展近況三個方面,對其架構中的Binding、Policy Engine和Policy Provider三大核心組件進行了詳細的闡述。并介紹了Sentry的搭建與部署步驟,以及其與Impala的集成步驟和在各類場景下Sentry的設計與使用方法。
第7章除了對網絡認證協議Kerberos的特點與組成、架構與應用等做了介紹以外,還對大數據應用下的諸多組件與Kerberos的集成做了詳細的實踐介紹,包括HDFS、Yarn、Zookeeper、Hive、HBase、Sqoop、Hue、Spark、Solr、Kafka、Storm與Impala,幾乎涵蓋了大部分學術界與工業界所涉及的各類組件,能夠為高校科研人員與企業開發人員提供有效的參考與幫助。
作者認為大數據治理與安全理論部分已經有一些書籍進行了較好的闡述,而實踐應用部分卻十分匱乏。因此本書著重在實踐部分使用大量篇幅進行詳細的講解描述。若讀者想要查閱大數據治理與安全的相關理論內容,作者推薦桑尼爾·索雷斯的《大數據治理》和張邵華的《大數據治理與服務》兩本書作為進一步的參考。
本書的作者除了封面和內封提到的六位之外,還有王文杰、段雄、吳琪、方久鑫、童楚云、陳超源、徐杰、陳喆、吳岳秋、吳成、張晶。
大數據發展迅速,而大數據治理與安全作為其分支,發展更是日新月異。由于作者水平有限,書中難免有不足與謬誤之處,若讀者發現問題并不吝告知,不勝感激。
本書講述的相關組件,請讀者到www.bitlinc.cn進行下載。
劉馳
lincbit@gmail.com
- 數據產品經理高效學習手冊:產品設計、技術常識與機器學習
- PySpark大數據分析與應用
- Neural Network Programming with TensorFlow
- 網站數據庫技術
- SQL應用及誤區分析
- 重復數據刪除技術:面向大數據管理的縮減技術
- Hadoop集群與安全
- Mastering LOB Development for Silverlight 5:A Case Study in Action
- The Natural Language Processing Workshop
- Spring MVC Beginner’s Guide
- 實現領域驅動設計
- 從Lucene到Elasticsearch:全文檢索實戰
- 數據中臺實戰:手把手教你搭建數據中臺
- NoSQL數據庫原理(第2版·微課版)
- 推薦系統全鏈路設計:原理解讀與業務實踐