- 重復(fù)數(shù)據(jù)刪除技術(shù):面向大數(shù)據(jù)管理的縮減技術(shù)
- 付印金 肖儂編著
- 2070字
- 2022-07-29 14:41:30
1.1.2 大數(shù)據(jù)管理挑戰(zhàn)
云計算是大數(shù)據(jù)存儲管理的基礎(chǔ)支撐技術(shù)。IDC研究預(yù)測:2020年,有超過40%的數(shù)據(jù)將會被云所“接觸”,即在云中創(chuàng)建、發(fā)布、存儲、操作,或者被云服務(wù)傳遞、暫存以及保護,而在2013年這個比例還不到20%。大數(shù)據(jù)著眼于數(shù)據(jù)采集、分析和挖掘,而云計算著眼于IT基礎(chǔ)架構(gòu)。大數(shù)據(jù)為云計算提供了有價值的應(yīng)用,而云計算為大數(shù)據(jù)提供了有力的平臺和工具。基于云計算架構(gòu)的存儲管理已然成為大數(shù)據(jù)研究和應(yīng)用的核心組件,各種改善人們?nèi)粘I睢⑻岣咂髽I(yè)運營能力的實際應(yīng)用都離不開數(shù)據(jù)的存取、分析和管理。如圖1-3所示,大數(shù)據(jù)存儲管理系統(tǒng)作為大數(shù)據(jù)存取的載體,相比于傳統(tǒng)的存儲系統(tǒng)在擴展性、可靠性、安全性、能耗及高效性方面都具有很多技術(shù)方面的挑戰(zhàn)[5]。

圖1-3 大數(shù)據(jù)管理挑戰(zhàn)
擴展問題:存儲系統(tǒng)容量隨數(shù)據(jù)量增長而不斷擴展。當(dāng)前大數(shù)據(jù)的規(guī)模已經(jīng)達到EB級別,將來甚至?xí)_到ZB級,這個數(shù)量級別的存儲容量是無法通過單純的往網(wǎng)絡(luò)存儲池添加硬盤來實現(xiàn)的。即使可以通過縱向擴容達到更大數(shù)據(jù)規(guī)模的需求,其高額的硬件及管理軟件成本也是數(shù)據(jù)存儲管理中心無法承擔(dān)的。因此,對于大數(shù)據(jù)存儲系統(tǒng)來說橫向擴展才能夠很好地達到巨量數(shù)據(jù)規(guī)模的需求,才能夠?qū)崿F(xiàn)存儲系統(tǒng)按需動態(tài)規(guī)模的增減。當(dāng)存儲容量或者帶寬不足以滿足現(xiàn)有要求時,橫向擴容可以通過添加存儲節(jié)點來達到擴容的目的。在大數(shù)據(jù)應(yīng)用領(lǐng)域,每一個節(jié)點不需要高價的磁盤陣列,相反只需要一定數(shù)量的各種類型的硬盤以獨立工作單元的方式進行管理。這些節(jié)點甚至可以是一些成本較為低廉的日常用機器。橫向擴容意味著數(shù)據(jù)管理軟件將要統(tǒng)籌更多的節(jié)點,面對更大的壓力。如果采用集中式的元數(shù)據(jù)節(jié)點管理,主節(jié)點的能力可能成為整個大數(shù)據(jù)存儲系統(tǒng)的性能瓶頸,尤其是當(dāng)規(guī)模擴大到成千上萬個節(jié)點時,單元數(shù)據(jù)管理節(jié)點的模式是不可靠的;如果采用分布式元數(shù)據(jù)節(jié)點集群管理,軟件的開發(fā)成本和系統(tǒng)本身的復(fù)雜度相應(yīng)就會提高。
可靠問題:由于數(shù)據(jù)中心存儲的數(shù)據(jù)量十分龐大以及管理系統(tǒng)的復(fù)雜性較高,這給海量數(shù)據(jù)管理帶來了一定的挑戰(zhàn);另外,數(shù)據(jù)中心為了控制成本從而導(dǎo)致大量廉價存儲設(shè)備的引入,導(dǎo)致數(shù)據(jù)極易由于硬件設(shè)備故障而丟失,而近年以來一些大型公司因為各種原因所導(dǎo)致的數(shù)據(jù)服務(wù)中斷等事故也讓人們開始擔(dān)憂自己存儲在數(shù)據(jù)中心的數(shù)據(jù)可靠性問題。因而對于大數(shù)據(jù)的存儲系統(tǒng)來說,一是需要強大的容錯軟件管理能力,二是需要更加有效的運維系統(tǒng)來監(jiān)控各種故障的發(fā)生,尤其是對于大數(shù)據(jù)存儲系統(tǒng)可能擁有十萬級別的硬盤,硬盤故障可能每天都會發(fā)生。如果大規(guī)模數(shù)據(jù)存儲系統(tǒng)的某個存儲設(shè)備發(fā)生故障,其中的存儲數(shù)據(jù)就會丟失,從而造成損失。這一問題在大數(shù)據(jù)時代顯得尤為突出。因此,如何提高大規(guī)模數(shù)據(jù)中心中所存儲數(shù)據(jù)的可靠性成為近年來的一個研究重點。
安全問題:隨著系統(tǒng)構(gòu)成規(guī)模和復(fù)雜提升引起數(shù)據(jù)安全管理及可靠性挑戰(zhàn)。大數(shù)據(jù)時代數(shù)據(jù)的快速變化除了要求有新的數(shù)據(jù)處理技術(shù)應(yīng)對之外,也給隱私保護帶來了新的挑戰(zhàn)。雖然大數(shù)據(jù)的存儲訪問位于企業(yè)的數(shù)據(jù)中心內(nèi)部,對外部用戶已經(jīng)具有防火墻隔離功能,但是對企業(yè)內(nèi)部來說不同部門的數(shù)據(jù)也并非是完全可以共享的。為每一個部門建立一個大數(shù)據(jù)的存儲管理平臺并不現(xiàn)實,較為實用的方法類似于傳統(tǒng)的數(shù)據(jù)庫訪問,所有部門共享一個大數(shù)據(jù)存儲池,通過添加必要的訪問控制來實現(xiàn)數(shù)據(jù)訪問的安全性。現(xiàn)有隱私保護技術(shù)主要基于靜態(tài)數(shù)據(jù)集,而在現(xiàn)實中數(shù)據(jù)模式和數(shù)據(jù)內(nèi)容時刻都在發(fā)生著變化。因此在這種更加復(fù)雜的環(huán)境下實現(xiàn)對動態(tài)數(shù)據(jù)的利用和隱私保護將更具挑戰(zhàn)。
效率問題:系統(tǒng)擴展的同時保持存儲空間和網(wǎng)絡(luò)帶寬的高利用率。面對數(shù)據(jù)量的急劇膨脹,企業(yè)需要不斷購置大量的存儲設(shè)備來應(yīng)對不斷增長的存儲需求。然而,存儲管理成本、占用空間、制冷能力、能耗等問題變得越來越嚴(yán)重,讓企業(yè)用戶頭疼不已。面對這種情況,高效存儲理念應(yīng)運而生,它旨在緩解存儲系統(tǒng)的空間增長問題,縮減數(shù)據(jù)占用空間,簡化存儲管理,最大限度地利用已有資源,降低成本。當(dāng)前的存儲環(huán)境中存在著太多的隱性浪費,導(dǎo)致企業(yè)對存儲系統(tǒng)的投入大部分打了水漂,資源與數(shù)據(jù)價值不匹配的現(xiàn)象也很常見。存儲利用率直接關(guān)系到存儲投資回報,高效存儲顯然是要研究一個重要技術(shù)挑戰(zhàn)。我們需要通過數(shù)據(jù)整合、虛擬化、自動精簡、自動分層存儲和數(shù)據(jù)縮減技術(shù)提高IT資源利用率。
能耗問題:數(shù)據(jù)中心隨系統(tǒng)規(guī)模擴展帶來的能耗挑戰(zhàn)。在能源價格上漲、數(shù)據(jù)中心存儲規(guī)模不斷擴大的今天,高能耗已逐漸成為制約大數(shù)據(jù)快速發(fā)展的一個主要瓶頸。從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問題,但是尚未引起足夠多的重視,相關(guān)的研究成果也較少。在大數(shù)據(jù)管理系統(tǒng)中,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主。理想狀態(tài)下,整個大數(shù)據(jù)管理系統(tǒng)的能耗應(yīng)該和系統(tǒng)利用率呈正比。但是實際情況并不像預(yù)期情況,系統(tǒng)利用率為零的時候仍然有能量消耗。絕大部分的電能用以確保服務(wù)器處于閑置狀態(tài),以應(yīng)對突如其來的網(wǎng)絡(luò)流量高峰,這種類型的功耗最高可以占到數(shù)據(jù)中心所有能耗的80%。從已有的一些研究成果來看,可以從新型低功耗硬件和引入可再生的新能源兩個方面來改善大數(shù)據(jù)能耗問題。
- SQL入門經(jīng)典(第5版)
- Architects of Intelligence
- 深入淺出數(shù)字孿生
- 中國數(shù)字流域
- 計算機組裝與維護(微課版)
- 聯(lián)動Oracle:設(shè)計思想、架構(gòu)實現(xiàn)與AWR報告
- Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)
- 中國云存儲發(fā)展報告
- Kubernetes快速進階與實戰(zhàn)
- 大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實踐
- MySQL性能調(diào)優(yōu)與架構(gòu)設(shè)計
- 數(shù)據(jù)產(chǎn)品經(jīng)理寶典:大數(shù)據(jù)時代如何創(chuàng)造卓越產(chǎn)品
- 數(shù)據(jù)可視化五部曲
- 一本書讀懂區(qū)塊鏈(第2版)
- 達夢數(shù)據(jù)庫集群