官术网_书友最值得收藏!

1.3.4 大數(shù)據(jù)管理

文獻[136]將大數(shù)據(jù)的管理劃分為四部分內(nèi)容:數(shù)據(jù)存儲(data storage)、數(shù)據(jù)預(yù)處理(data pre-processing)、數(shù)據(jù)處理(data processing)以及數(shù)據(jù)安全(data security)。

1.數(shù)據(jù)存儲

數(shù)據(jù)存儲領(lǐng)域存在三方面的關(guān)鍵問題:聚類(clustering)、復(fù)制(replication)和索引化(indexing)。

(1)聚類

聚類是將大量數(shù)據(jù)總結(jié)成分組的過程,具有相似特征的實體被放置在一起。文獻[137]指出,針對海量數(shù)據(jù)和有限存儲資源之間的矛盾,聚類能夠?qū)?shù)據(jù)進行精確的分組和表示,進而有效地降低了存儲數(shù)據(jù)所需的空間。文獻[138]提出的存儲優(yōu)化層次聚集聚類(Storage-Optimizing Hierarchical Agglomerative Clustering,SOHAC)算法設(shè)計了一種存儲結(jié)構(gòu),該結(jié)構(gòu)針對可變的數(shù)據(jù)提供了較小存儲空間需求的方案。該算法的雛形最早在文獻[139]中提出,但針對高維數(shù)據(jù)的計算是受限制的。從本質(zhì)上說,聚類方法在面臨正常數(shù)據(jù)時存在一些限制,因此它們不能很好地適應(yīng)較大的數(shù)據(jù)集。文獻[140]基于k-means算法提出一個面向數(shù)據(jù)集的并行聚類方法并在MapReduce框架下進行了實現(xiàn),該方法為n個對象創(chuàng)建k個簇,處于同一個簇內(nèi)的對象之間的相似性應(yīng)當(dāng)盡可能地高。一般來說,k-means類算法的性能在隨機選取的數(shù)據(jù)上是因情況而異的,會導(dǎo)致算法關(guān)注于尋找本地最優(yōu)的相似性。針對該問題,研究者們提出了基于分區(qū)的聚類、基于人工智能的聚類以及其他k-means類算法的替代品。文獻[141]提出了人工蜂群(Artificial Bee Colony,ABC)優(yōu)化算法,該算法屬于基于分區(qū)的聚類,實驗結(jié)果顯示人工蜂群算法的性能要優(yōu)于包括粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法在內(nèi)的絕大多數(shù)聚類方法。

(2)復(fù)制

復(fù)制是大數(shù)據(jù)存儲管理中毋庸置疑的重要操作,其保證了數(shù)據(jù)的可獲得性和一致性訪問。對于可變的數(shù)據(jù)來說,確定每個副本的準(zhǔn)確性和存儲空間的預(yù)留程度是具有挑戰(zhàn)性的問題[142]。文獻[143]將數(shù)據(jù)的一致性建模為復(fù)制的可信度。此外,由于數(shù)據(jù)的變化一直處在傳播的狀態(tài),因此數(shù)據(jù)改變的傳播時間也會作為一個重要的因素。文獻[144]提出了一個動態(tài)數(shù)據(jù)復(fù)制策略(Dynamic Data Replication Strategy,D2RS)來優(yōu)化數(shù)據(jù)的可獲得性和云系統(tǒng)的帶寬消耗,該策略著重闡述了如何選擇需要復(fù)制的數(shù)據(jù)、多少份副本能夠保證系統(tǒng)維持一定的可獲得性以及副本的放置位置等問題。

(3)索引化

對于海量數(shù)據(jù)來說,索引化能夠優(yōu)化查詢執(zhí)行的效率,進而改善獲取數(shù)據(jù)的性能。因此,需要研發(fā)合適的機制來獲得較高的索引化吞吐量并實現(xiàn)高效的數(shù)據(jù)查找[145]。文獻[146]提出的索引化和查找機制支持在數(shù)據(jù)流中針對關(guān)鍵字進行查找,該機制包含一個組合樹索引結(jié)構(gòu),實驗表明其適用于大規(guī)模的流數(shù)據(jù),且消耗的內(nèi)存較少。文獻[147]提出了基于支持向量機的索引化算法,該算法用于從監(jiān)控視頻中提取視頻數(shù)據(jù)來對人類行為進行建模。通過修改基本狀態(tài)和轉(zhuǎn)移概率的計算方式來獲得不同的狀態(tài),進而確定輸入值的概率分?jǐn)?shù)。由于上述狀態(tài)和概率是通過對數(shù)據(jù)的訓(xùn)練而獲得的,因此其學(xué)習(xí)過程耗時嚴(yán)重。

2.數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理領(lǐng)域存在兩個方面的關(guān)鍵問題:傳輸(transmission)和清洗(cleansing)。在對采集到的數(shù)據(jù)進行分析和進一步的挖掘之前,需要首先判斷數(shù)據(jù)的質(zhì)量,只有具備良好質(zhì)量的數(shù)據(jù)才具備提供有價值信息的潛力。

(1)傳輸

傳輸是指將原始數(shù)據(jù)轉(zhuǎn)移到存儲設(shè)施中,這些存儲設(shè)施可能包含本地數(shù)據(jù)中心和云數(shù)據(jù)中心。原始數(shù)據(jù)的傳輸通常都要涉及各類通信網(wǎng)絡(luò)和傳輸協(xié)議,對于當(dāng)前復(fù)雜應(yīng)用場景下產(chǎn)生的海量多源異構(gòu)數(shù)據(jù)來說,原始數(shù)據(jù)的傳輸環(huán)節(jié)面臨很多重大挑戰(zhàn)。文獻[148]指出,在數(shù)據(jù)分析過程中,以遠(yuǎn)程方式執(zhí)行讀/寫操作非常耗時。常見的解決方案是通過高速局域網(wǎng)將數(shù)據(jù)傳輸至具有計算和分析能力的數(shù)據(jù)中心,這樣做的副作用是會在數(shù)據(jù)中心周圍的網(wǎng)絡(luò)中產(chǎn)生擁塞,進而削弱數(shù)據(jù)中心處理和分析數(shù)據(jù)的能力。近年來,由于光信息交換在點對點鏈接上的廉價性,光纖技術(shù)在數(shù)據(jù)中心網(wǎng)絡(luò)中的使用越來越廣泛[149]

(2)數(shù)據(jù)清洗

數(shù)據(jù)清洗是一系列技術(shù)的統(tǒng)稱,這些技術(shù)能夠?qū)Σ煌耆摹⒉粶?zhǔn)確的數(shù)據(jù)進行處理和轉(zhuǎn)換,實現(xiàn)提高數(shù)據(jù)質(zhì)量的功能。為了保持?jǐn)?shù)據(jù)的可靠性,數(shù)據(jù)清洗的操作是必不可少的[150]。文獻[151]將數(shù)據(jù)清洗中包含的常規(guī)操作分為五步:1)確定現(xiàn)有錯誤的類型;2)查找并識別錯誤的實例;3)修正錯誤、記錄出錯的實例以及錯誤的類型;4)更新數(shù)據(jù)輸入流程來減少錯誤;5)對數(shù)據(jù)的格式、完整性和合理性進行檢查。在傳統(tǒng)的數(shù)據(jù)分析領(lǐng)域,絕大多數(shù)情況下數(shù)據(jù)的來源是比較有限的,而且這些數(shù)據(jù)源都具有比較完善的模型和嚴(yán)格的定義,因此所產(chǎn)生的數(shù)據(jù)通常是相對干凈和整潔的。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)源廣泛存在于各個領(lǐng)域,絕大多數(shù)數(shù)據(jù)源都未經(jīng)過良好的定義,同時也沒有經(jīng)過合理的驗證。這對傳統(tǒng)的數(shù)據(jù)分析應(yīng)用程序的實際性能造成了很大的影響。一般來說,數(shù)據(jù)清洗的方法依賴于復(fù)雜的關(guān)聯(lián)模型(complex association model),其導(dǎo)致在處理過程中產(chǎn)生額外的計算開銷和延遲。因此,文獻[47]指出,數(shù)據(jù)清洗的模型必須根據(jù)準(zhǔn)確性分析的性能提升程度在復(fù)雜性方面進行調(diào)整。針對移動環(huán)境下數(shù)據(jù)缺失的問題,文獻[152]給出了一個概率模型,該模型能夠以較低的開銷達(dá)到比較令人滿意的性能。

3.數(shù)據(jù)處理

一般來說,數(shù)據(jù)處理有兩個目的:探究多個數(shù)據(jù)特征之間的關(guān)系;研發(fā)有效的數(shù)據(jù)挖掘算法以預(yù)測數(shù)據(jù)未來的趨勢。因此,數(shù)據(jù)處理領(lǐng)域存在兩個方面的關(guān)鍵問題:分類(classification)和預(yù)測(prediction)。文獻[153]指出,處理海量數(shù)據(jù)的能力可以為決策者提供足以影響商業(yè)格局的重要信息。由于海量多源異構(gòu)數(shù)據(jù)本身具有的復(fù)雜性,對數(shù)據(jù)進行處理的算法需要具有良好的可擴展性和可接受的時間/空間復(fù)雜度[154]

(1)分類

分類本質(zhì)上來說是一種數(shù)據(jù)挖掘方法,其作用是將樣本劃分為不同的組[155]。文獻[156]指出,數(shù)據(jù)挖掘能夠協(xié)助各類商業(yè)組織洞察隱藏在數(shù)據(jù)當(dāng)中的信息,目前已經(jīng)成功地應(yīng)用于科技、醫(yī)藥、商業(yè)以及工程等領(lǐng)域。大數(shù)據(jù)時代不僅將海量的數(shù)據(jù)聚集了起來,同時在結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)這三個大類中產(chǎn)生了很多新型的數(shù)據(jù)格式,這些新型的數(shù)據(jù)格式在傳統(tǒng)的數(shù)據(jù)挖掘方法中未曾涉及[157]。具體來說,傳統(tǒng)的數(shù)據(jù)挖掘方法無法在針對新型數(shù)據(jù)的分析中尋找未知和同質(zhì)化的模式。文獻[158]指出,針對大數(shù)據(jù)分析所涉及的存儲與計算問題,云計算技術(shù)可以給出有效的解決方案。一般來說,大數(shù)據(jù)的數(shù)據(jù)挖掘模式如下:對于采集到的半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),首先將其存儲在分布式數(shù)據(jù)庫中,其次進行清洗、集成和轉(zhuǎn)化,最后進行分析。

(2)預(yù)測

預(yù)測是指通過數(shù)據(jù)挖掘算法基于歷史數(shù)據(jù)以及某種映射關(guān)系來對變量進行估計。為了進行靈活的數(shù)據(jù)分析,文獻[159]提出了三個原則:第一,數(shù)據(jù)分析的體系結(jié)構(gòu)應(yīng)該支持多種分析方法,例如統(tǒng)計分析、機器學(xué)習(xí)和可視化分析等;第二,能夠?qū)τ貌煌鎯C制存儲的數(shù)據(jù)進行分析,而且在數(shù)據(jù)處理的不同階段,所采用的方式是不同的;第三,數(shù)據(jù)的訪問及存儲方式應(yīng)當(dāng)是高效的。文獻[160]指出,當(dāng)前由各類設(shè)備產(chǎn)生的數(shù)據(jù)量正以前所未有的速度進行增長,對于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)訪問和挖掘的速度也在隨之增加。設(shè)計優(yōu)良的數(shù)據(jù)預(yù)測方法能夠通過分類和估計得出模型,然后對未來的數(shù)據(jù)狀態(tài)進行較為準(zhǔn)確的預(yù)測。

4.數(shù)據(jù)安全

數(shù)據(jù)安全領(lǐng)域存在四個方面的關(guān)鍵問題:隱私(privacy)、完整性(integrity)、機密性(confidentiality)和可獲得性(availability)。文獻[161]于2015年指出,在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)是由多種數(shù)據(jù)源產(chǎn)生的,因此數(shù)據(jù)的安全性就成了一個嚴(yán)重的問題,需要針對大數(shù)據(jù)的安全來研發(fā)高效的機制和算法。

(1)隱私

由于近年來數(shù)據(jù)泄露事件頻發(fā),各國政府及各類機構(gòu)都面臨著在大數(shù)據(jù)帶來的機遇與隱私風(fēng)險之間進行平衡的問題[162][163]。美國國家安全局(National Security Agency,NSA)的監(jiān)視計劃不僅為隱私捍衛(wèi)者所詬病,即使是政策制定者也認(rèn)為有必要限制政府在打擊恐怖襲擊和網(wǎng)絡(luò)攻擊方面的權(quán)力。文獻[164][165]指出,在大數(shù)據(jù)帶來的機遇與良好的隱私保護之間尋找合適的折中點是當(dāng)前制定公眾策略所面臨的最大挑戰(zhàn)。針對隱私保護給商業(yè)公司以及政府帶來的問題,學(xué)界和業(yè)界已經(jīng)提出了若干幫助決策者理解和緩解數(shù)據(jù)隱私相關(guān)的風(fēng)險的機制[166]:文獻[167]針對隱私保護的度量設(shè)計了期望最大化(expectation-maximization)算法,該方案是確保數(shù)據(jù)挖掘過程中隱私保護的一個重構(gòu)算法,其性能主要受限于隨機化機制的效率。文獻[168]基于可移植的數(shù)據(jù)綁定技術(shù)提出了數(shù)據(jù)保護的三層體系結(jié)構(gòu),該模型為由數(shù)據(jù)索引導(dǎo)致的隱私問題提供了解決方案,其性能主要受限于對惡意攻擊的防護。文獻[169]為MapReduce框架添加了隱私保護層,該方案能夠在MapReduce子序列任務(wù)進一步處理數(shù)據(jù)之前保護數(shù)據(jù)隱私,其不足之處為與其他數(shù)據(jù)處理流程進行集成的能力較弱。文獻[170]基于啟發(fā)式算法提出了降低隱私保護開銷的方案,該方案能夠識別眾多中間數(shù)據(jù)集中哪些需要被加密,而哪些不需要被加密。

(2)完整性

在大多數(shù)協(xié)同性事務(wù)中(例如醫(yī)療、金融和軍事等),不同實體之間通過信息共享來實施分析與決策。在這種應(yīng)用場景下,數(shù)據(jù)的完整性至關(guān)重要[171]。對于大規(guī)模的協(xié)同性事務(wù),所參與的實體在不同程度上都面臨著數(shù)據(jù)高速變化的情況,因此從整體上看,數(shù)據(jù)的完整性要求所面臨的形勢十分嚴(yán)峻。當(dāng)數(shù)據(jù)的完整性無法得到保證時,數(shù)據(jù)的有效性會顯著降低,從其中提取的信息的可信度也會顯著降低,進而不同實體之間的協(xié)作無法成功完成。令人遺憾的是,盡管數(shù)據(jù)的完整性十分重要,但目前該領(lǐng)域的研究與應(yīng)用依然很有限。造成這種現(xiàn)象的主要原因是給出數(shù)據(jù)完整性的精確定義很難。一般來說,數(shù)據(jù)完整性最為廣泛接受的定義是防止非法和非授權(quán)的改變。文獻[172]指出上述定義在某種程度上與Clark-Wilson完整性模型[173]比較吻合,該文獻闡述的是避免欺騙(fraud)和錯誤(error)。

文獻[174]討論了數(shù)據(jù)完整性的五類定義:第一類定義稱為數(shù)據(jù)質(zhì)量定義(data quality definition),其典型代表為Courtney-Ware模型[175]。該模型基于數(shù)據(jù)質(zhì)量的期望(expectation of data quality):數(shù)據(jù)具有完整性,是指其質(zhì)量符合或者超過用戶期望的需求。Courtney-Ware模型是五類定義中唯一一個涉及活性(liveness)需求的定義,如果數(shù)據(jù)沒有定期地進行更新,那么數(shù)據(jù)的及時性就會惡化(deterioration)。此外,第二、三、四類定義僅提及了安全性需求,故而通過顯式的動作就可以使數(shù)據(jù)的完整性受到危害,而無須使用使數(shù)據(jù)失效的動作。第二、三類定義之間密切相關(guān),均基于修改數(shù)據(jù)的能力,統(tǒng)稱為數(shù)據(jù)修改定義(data modification definition)。第二類定義給出了針對不合適的數(shù)據(jù)修改(improper modification of data)需要對數(shù)據(jù)完整性進行保護的范圍,其中的典型代表為Sandhu-Jajodia模型[176]。第三類定義進一步縮小了對數(shù)據(jù)完整性進行保護的范圍,其針對未授權(quán)的數(shù)據(jù)修改(unauthorized modification of data)進行保護。第三類定義在眾多安全標(biāo)準(zhǔn)中都有所體現(xiàn)[177][178]。第四類定義稱為信息流定義,其中的典型代表為Biba完整性模型,該模型將完整性看作格(lattice)中的單向信息流(one-directional information flow)[179]。第四類定義比前三類定義更加嚴(yán)格,其針對未授權(quán)的數(shù)據(jù)修改給出了非常具體的規(guī)范。第五類定義通常源于網(wǎng)絡(luò)領(lǐng)域,是最嚴(yán)格的定義。該類定義要求數(shù)據(jù)是不能夠被修改的,或者說任何改變都應(yīng)當(dāng)是可檢測的(detectable),同時要求存儲介質(zhì)中的數(shù)據(jù)也遵循類似的行為規(guī)范。第五類定義在文獻[174]中并沒有進行詳細(xì)的討論,列出該類定義是為了保持定義序列整體的完整性。

當(dāng)代絕大多數(shù)數(shù)據(jù)庫管理系統(tǒng)(DataBase Management System,DBMS)都允許用戶自定義對數(shù)據(jù)的限制條件,其中大部分屬于完整性約束。這些完整性約束的主要目的是保證數(shù)據(jù)的一致性和準(zhǔn)確性。由于不同的完整性需求對應(yīng)著不同類型的方法,因此多方面的完整性約束無法很好地歸納出完整性的定義。例如,Clark-Wilson完整性模型通過應(yīng)用結(jié)構(gòu)良好的交易事務(wù)來修正錯誤的數(shù)據(jù)。Biba完整性模型通過限制數(shù)據(jù)對象之間的信息流動來防止數(shù)據(jù)的損壞[180]。數(shù)據(jù)完整性保護所面臨的最大挑戰(zhàn)是研發(fā)環(huán)節(jié)如何確保完整性檢查與大數(shù)據(jù)的實際應(yīng)用需求相結(jié)合。當(dāng)研究者們試圖對大數(shù)據(jù)應(yīng)用完整性規(guī)則和哈希算法時,已有的方法無法適應(yīng)大數(shù)據(jù)所具有的新型特征。因此,需要針對大數(shù)據(jù)的新型特征來設(shè)計能夠?qū)A繑?shù)據(jù)進行完整性檢查的算法。文獻[181]指出,當(dāng)處理云中的大數(shù)據(jù)時,數(shù)據(jù)完整性檢查的一個關(guān)鍵環(huán)節(jié)是不可信的服務(wù)器。對于廣泛應(yīng)用于大數(shù)據(jù)領(lǐng)域的分布式數(shù)據(jù)采集與存儲系統(tǒng)來說,在線的數(shù)據(jù)完整性驗證方法不可或缺,這類方法不需要內(nèi)部存儲結(jié)構(gòu)中數(shù)據(jù)的信息,在很大程度上提高了完整性驗證方案整體的效率。

(3)機密性

數(shù)據(jù)的機密性可以通過阻止未授權(quán)的用戶訪問數(shù)據(jù)來實現(xiàn)。文獻[182]指出,上述阻止通常是通過應(yīng)用加密方法來對數(shù)據(jù)進行保護。對于海量數(shù)據(jù)而言,加密算法可以分為表加密、磁盤加密和數(shù)據(jù)加密。傳統(tǒng)的加密方法只能應(yīng)用于有限規(guī)模的數(shù)據(jù),隨著數(shù)據(jù)規(guī)模的持續(xù)增長,需要研發(fā)能夠應(yīng)用于海量數(shù)據(jù)機密性保護的新型加密算法。此外,在對海量數(shù)據(jù)執(zhí)行加密操作的過程中,算法消耗的能源應(yīng)當(dāng)盡可能地小。如前所述,大數(shù)據(jù)具有異構(gòu)性和分布式兩大復(fù)雜特性,因此降低加密算法的復(fù)雜性和開銷至關(guān)重要。數(shù)據(jù)加密方法的選擇通常基于以下原則:最小的粒度(granularity),強安全性、高靈活度以及較好的應(yīng)用相關(guān)性。在實際應(yīng)用中,大規(guī)模的鍵空間、數(shù)據(jù)管理以及應(yīng)用復(fù)雜性通常對加密算法的性能形成諸多限制。盡管近年來密碼學(xué)領(lǐng)域的研究如火如荼,但大多集中在模式和應(yīng)用層面的創(chuàng)新。因此,在數(shù)據(jù)的機密性方面,常用的算法依舊是早期的經(jīng)典算法。這里,筆者對七種經(jīng)典的加密算法進行闡述,這些加密算法各自都具有一些本質(zhì)上的缺陷,有些已經(jīng)存在破解的案例,但是通過結(jié)合具體實現(xiàn)中應(yīng)用層面其他環(huán)節(jié)的限制,它們的安全性在實際使用中都是符合要求的。文獻[183]對Twofish算法進行了描述,該算法的密鑰大小為128位、192位和256位,加密塊的大小為128位,加密輪數(shù)為16輪,其存在的安全性缺陷為截斷差分密碼分析(truncated differential cryptanalysis),目前該算法還未被破解;文獻[184]對RC4算法進行了描述,該算法是一種密鑰長度可變的流加密算法,其密鑰大小為40~2048位,加密塊的大小是可變的,加密輪數(shù)為256輪,其存在的安全性缺陷為弱密鑰安排(weak key schedule),目前該算法已經(jīng)有破解案例;文獻[185]對RC2算法進行了描述,該算法是一種傳統(tǒng)的私鑰塊加密算法,其密鑰大小為8~1024位,常用的是8字節(jié),加密塊的大小為64位,加密的輪數(shù)為16+2,其中16輪Mixing操作和2輪Mashing操作,其存在的安全性缺陷是相關(guān)密鑰攻擊,目前該算法已經(jīng)有破解案例;文獻[186]對DES算法進行了描述,該算法的全稱是數(shù)據(jù)加密標(biāo)準(zhǔn)(data encryption standard),由美國IBM公司研究并發(fā)布,其使用密鑰對塊進行加密,密鑰大小為56位,加密塊的大小為64位,加密輪數(shù)為16輪,該算法存在的安全缺陷有暴力攻擊(brute force attack)、戴維斯攻擊(davis attack)和線性密碼分析(linear cryptanalysis),目前已經(jīng)有破解案例;文獻[187]對Triple DES進行了描述,由于DES算法在理論上存在安全缺陷,因此IBM公司后續(xù)對該算法進行了改進,設(shè)計了Triple DES算法,該算法對每個數(shù)據(jù)塊執(zhí)行三次DES加密,其密鑰大小為112位或168位,加密塊的大小為64位,加密輪數(shù)為48輪,該算法理論上存在缺陷,但目前還未有破解案例;文獻[188]對Blowfish算法進行了描述,該算法的密鑰大小為128位,加密塊的大小為64位,加密輪數(shù)為16輪,其存在的安全性缺陷為二階差分攻擊(second-order differential attack),目前還未有破解案例;文獻[189]對Rijndael算法進行了描述,該算法的密鑰大小為128位、192位和256位,加密塊的大小為128位,加密輪數(shù)為10輪、12輪和14輪,其存在的安全性缺陷為側(cè)信道攻擊(side channel attack),目前還未有破解案例。

(4)可獲得性

對于采用分布式云技術(shù)來解決存儲問題的海量數(shù)據(jù)來說,數(shù)據(jù)的可獲得性直接影響著各個層次中構(gòu)件與服務(wù)的服務(wù)質(zhì)量(Quality of Service,QoS)。一方面,文獻[190]指出,不論用戶何時請求數(shù)據(jù),系統(tǒng)都能夠滿足用戶的需求,即理想情況下系統(tǒng)在任何時間都不會出現(xiàn)失效。另一方面,文獻[191]指出,相比傳統(tǒng)的數(shù)據(jù)挖掘算法,為了針對海量數(shù)據(jù)提供大量的、高速的數(shù)據(jù)流,新型的數(shù)據(jù)挖掘算法必須具有非常高的瞬時性(instantaneity)。此外,實際應(yīng)用場景中還存在一些對數(shù)據(jù)可獲得性構(gòu)成潛在威脅的因素。文獻[192][193]提到惡意用戶可以通過向特定的服務(wù)器發(fā)送大量消息而使得合法用戶無法正常地與服務(wù)器進行交互,這種類型的攻擊通常稱為洪泛攻擊(flooding attack)。文獻[164]將洪泛攻擊分為兩類:直接DoS攻擊和間接DoS攻擊,這里的DoS是指拒絕服務(wù)(denial of service)。對于直接DoS攻擊,由于服務(wù)器上特定服務(wù)所具有的資源及網(wǎng)絡(luò)帶寬被大量請求所耗盡,因此合法數(shù)據(jù)完全丟失;對于間接DoS攻擊,雖然沒有明確的目標(biāo),但服務(wù)器上所有的服務(wù)都將受到不同程度的影響。

主站蜘蛛池模板: 安塞县| 陇西县| 临西县| 五台县| 萨嘎县| 瑞安市| 潮州市| 隆回县| 广南县| 科技| 石嘴山市| 淮安市| 衡南县| 获嘉县| 高州市| 曲靖市| 岫岩| 泌阳县| 永兴县| 定安县| 新宁县| 赣州市| 沅江市| 泰兴市| 正蓝旗| 务川| 北碚区| 安福县| 石林| 株洲县| 霍邱县| 大荔县| 微博| 金堂县| 吉安县| 正定县| 新邵县| 泸定县| 乌拉特后旗| 清丰县| 宁蒗|