復(fù)制是大數(shù)據(jù)存儲管理中毋庸置疑的重要操作,其保證了數(shù)據(jù)的可獲得性和一致性訪問。對于可變的數(shù)據(jù)來說,確定每個副本的準(zhǔn)確性和存儲空間的預(yù)留程度是具有挑戰(zhàn)性的問題[142]。文獻[143]將數(shù)據(jù)的一致性建模為復(fù)制的可信度。此外,由于數(shù)據(jù)的變化一直處在傳播的狀態(tài),因此數(shù)據(jù)改變的傳播時間也會作為一個重要的因素。文獻[144]提出了一個動態(tài)數(shù)據(jù)復(fù)制策略(Dynamic Data Replication Strategy,D2RS)來優(yōu)化數(shù)據(jù)的可獲得性和云系統(tǒng)的帶寬消耗,該策略著重闡述了如何選擇需要復(fù)制的數(shù)據(jù)、多少份副本能夠保證系統(tǒng)維持一定的可獲得性以及副本的放置位置等問題。
數(shù)據(jù)清洗是一系列技術(shù)的統(tǒng)稱,這些技術(shù)能夠?qū)Σ煌耆摹⒉粶?zhǔn)確的數(shù)據(jù)進行處理和轉(zhuǎn)換,實現(xiàn)提高數(shù)據(jù)質(zhì)量的功能。為了保持?jǐn)?shù)據(jù)的可靠性,數(shù)據(jù)清洗的操作是必不可少的[150]。文獻[151]將數(shù)據(jù)清洗中包含的常規(guī)操作分為五步:1)確定現(xiàn)有錯誤的類型;2)查找并識別錯誤的實例;3)修正錯誤、記錄出錯的實例以及錯誤的類型;4)更新數(shù)據(jù)輸入流程來減少錯誤;5)對數(shù)據(jù)的格式、完整性和合理性進行檢查。在傳統(tǒng)的數(shù)據(jù)分析領(lǐng)域,絕大多數(shù)情況下數(shù)據(jù)的來源是比較有限的,而且這些數(shù)據(jù)源都具有比較完善的模型和嚴(yán)格的定義,因此所產(chǎn)生的數(shù)據(jù)通常是相對干凈和整潔的。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)源廣泛存在于各個領(lǐng)域,絕大多數(shù)數(shù)據(jù)源都未經(jīng)過良好的定義,同時也沒有經(jīng)過合理的驗證。這對傳統(tǒng)的數(shù)據(jù)分析應(yīng)用程序的實際性能造成了很大的影響。一般來說,數(shù)據(jù)清洗的方法依賴于復(fù)雜的關(guān)聯(lián)模型(complex association model),其導(dǎo)致在處理過程中產(chǎn)生額外的計算開銷和延遲。因此,文獻[47]指出,數(shù)據(jù)清洗的模型必須根據(jù)準(zhǔn)確性分析的性能提升程度在復(fù)雜性方面進行調(diào)整。針對移動環(huán)境下數(shù)據(jù)缺失的問題,文獻[152]給出了一個概率模型,該模型能夠以較低的開銷達(dá)到比較令人滿意的性能。
文獻[174]討論了數(shù)據(jù)完整性的五類定義:第一類定義稱為數(shù)據(jù)質(zhì)量定義(data quality definition),其典型代表為Courtney-Ware模型[175]。該模型基于數(shù)據(jù)質(zhì)量的期望(expectation of data quality):數(shù)據(jù)具有完整性,是指其質(zhì)量符合或者超過用戶期望的需求。Courtney-Ware模型是五類定義中唯一一個涉及活性(liveness)需求的定義,如果數(shù)據(jù)沒有定期地進行更新,那么數(shù)據(jù)的及時性就會惡化(deterioration)。此外,第二、三、四類定義僅提及了安全性需求,故而通過顯式的動作就可以使數(shù)據(jù)的完整性受到危害,而無須使用使數(shù)據(jù)失效的動作。第二、三類定義之間密切相關(guān),均基于修改數(shù)據(jù)的能力,統(tǒng)稱為數(shù)據(jù)修改定義(data modification definition)。第二類定義給出了針對不合適的數(shù)據(jù)修改(improper modification of data)需要對數(shù)據(jù)完整性進行保護的范圍,其中的典型代表為Sandhu-Jajodia模型[176]。第三類定義進一步縮小了對數(shù)據(jù)完整性進行保護的范圍,其針對未授權(quán)的數(shù)據(jù)修改(unauthorized modification of data)進行保護。第三類定義在眾多安全標(biāo)準(zhǔn)中都有所體現(xiàn)[177][178]。第四類定義稱為信息流定義,其中的典型代表為Biba完整性模型,該模型將完整性看作格(lattice)中的單向信息流(one-directional information flow)[179]。第四類定義比前三類定義更加嚴(yán)格,其針對未授權(quán)的數(shù)據(jù)修改給出了非常具體的規(guī)范。第五類定義通常源于網(wǎng)絡(luò)領(lǐng)域,是最嚴(yán)格的定義。該類定義要求數(shù)據(jù)是不能夠被修改的,或者說任何改變都應(yīng)當(dāng)是可檢測的(detectable),同時要求存儲介質(zhì)中的數(shù)據(jù)也遵循類似的行為規(guī)范。第五類定義在文獻[174]中并沒有進行詳細(xì)的討論,列出該類定義是為了保持定義序列整體的完整性。
對于采用分布式云技術(shù)來解決存儲問題的海量數(shù)據(jù)來說,數(shù)據(jù)的可獲得性直接影響著各個層次中構(gòu)件與服務(wù)的服務(wù)質(zhì)量(Quality of Service,QoS)。一方面,文獻[190]指出,不論用戶何時請求數(shù)據(jù),系統(tǒng)都能夠滿足用戶的需求,即理想情況下系統(tǒng)在任何時間都不會出現(xiàn)失效。另一方面,文獻[191]指出,相比傳統(tǒng)的數(shù)據(jù)挖掘算法,為了針對海量數(shù)據(jù)提供大量的、高速的數(shù)據(jù)流,新型的數(shù)據(jù)挖掘算法必須具有非常高的瞬時性(instantaneity)。此外,實際應(yīng)用場景中還存在一些對數(shù)據(jù)可獲得性構(gòu)成潛在威脅的因素。文獻[192][193]提到惡意用戶可以通過向特定的服務(wù)器發(fā)送大量消息而使得合法用戶無法正常地與服務(wù)器進行交互,這種類型的攻擊通常稱為洪泛攻擊(flooding attack)。文獻[164]將洪泛攻擊分為兩類:直接DoS攻擊和間接DoS攻擊,這里的DoS是指拒絕服務(wù)(denial of service)。對于直接DoS攻擊,由于服務(wù)器上特定服務(wù)所具有的資源及網(wǎng)絡(luò)帶寬被大量請求所耗盡,因此合法數(shù)據(jù)完全丟失;對于間接DoS攻擊,雖然沒有明確的目標(biāo),但服務(wù)器上所有的服務(wù)都將受到不同程度的影響。