- 重復數據刪除技術:面向大數據管理的縮減技術
- 付印金 肖儂編著
- 1132字
- 2022-07-29 14:41:32
1.3 本章小結
本章通過為讀者介紹大數據的概念、大數據存儲管理挑戰以及存儲虛擬化、自動精簡配置、自動分層存儲和數據縮減技術等四種高效能存儲管理核心技術等基本知識,為讀者閱讀和理解后續章節的內容打下良好的基礎。后續各章節內容組織如下:
第2章介紹信息存儲技術基礎。為方便更好地理解大數據管理技術,我們簡單介紹一些基本的存儲技術知識,包括主要的存儲介質、存儲接口、存儲陣列及網絡存儲系統架構等方面的內容。
第3章闡述大數據管理技術。針對現有的大數據存儲和處理技術,分別介紹以Map-Reduce為代表的分布式計算框架、分布式文件系統為代表的大規模網絡存儲技術、NoSQL數據庫為代表的海量數據管理技術,以及以Hive為代表的類關系型大數據倉庫等新一代的計算機技術與體系結構,實現對海量多元數據進行高性能存儲與處理。
第4章介紹重復數據刪除存儲系統架構。首先介紹重復數據刪除技術的概念及其分類。其次分析重復數據刪除存儲系統的體系結構和基本原理,同時也與傳統存儲系統進行對比。再次重點分析重復數據刪除技術的各種主要應用場景。最后介紹重復數據刪除存儲業界相關產品及開源軟件項目。
第5章闡述重復數據刪除關鍵技術。根據重復數據刪除處理的流程,依次介紹了數據劃分方法、塊指紋計算加速方法、塊索引查詢優化技術、數據還原技術以及垃圾回收機制,再根據重復數據刪除存儲系統的擴展性、可靠性和安全需求,分別介紹可擴展數據路由技術、高可靠數據配置策略、重刪數據安全管理技術。
第6章講述應用感知源端重復數據刪除機制。首先,建立了源端重復數據刪除的形式化模型,并分析出客戶端局部冗余檢測與云端全局冗余檢測存在互補。其次,通過大量個人數據統計分析了文件語義指導對重復數據刪除效果的影響。再次,設計了客戶端局部冗余檢測與服務器端全局冗余檢測相結合的源端應用感知重復數據刪除機制。最后,通過原型系統實現,全面驗證和評估了所設計的源端應用感知重復數據刪除機制在數據縮減率、備份窗口、能耗利用率、云存儲成本和系統開銷等方面的優勢。
第7章講述高可擴展集群重復數據刪除技術。首先,介紹了相關的研究背景知識。其次,建立了理論模型進行超塊相似性分析,并提出了基于手紋的數據路由算法。再次,結合數據局部性和相似性設計了可擴展的在線集群重復數據刪除系統框架。最后,通過原型實現和真實數據集測試,對比主流的集群重復數據刪除策略,驗證了我們的設計在空間利用率、通信開銷和負載平衡等方面的優勢。
第8章介紹國際主流的重復數據刪除存儲相關產品的應用案例。首先,闡述企業應用數據集的重復數據刪除縮減率影響因素及其評估方法。然后,針對當前國際主流的重復數據刪除存儲廠商相關產品的應用案例進行介紹。通過這些產品及案例分析,充分展示了重復數據刪除技術對大數據存儲及保護方面的優勢。
- GitHub Essentials
- Greenplum:從大數據戰略到實現
- 復雜性思考:復雜性科學和計算模型(原書第2版)
- Developing Mobile Games with Moai SDK
- 企業大數據系統構建實戰:技術、架構、實施與應用
- 圖解機器學習算法
- Enterprise Integration with WSO2 ESB
- Spark核心技術與高級應用
- Mastering Machine Learning with R(Second Edition)
- 大數據Hadoop 3.X分布式處理實戰
- Hands-On Mathematics for Deep Learning
- gnuplot Cookbook
- 重復數據刪除技術:面向大數據管理的縮減技術
- IPython Interactive Computing and Visualization Cookbook(Second Edition)
- INSTANT Android Fragmentation Management How-to