官术网_书友最值得收藏!

1.3.2 大數(shù)據(jù)帶來的挑戰(zhàn)

1.大數(shù)據(jù)的處理及應(yīng)用

大數(shù)據(jù)的處理及應(yīng)用是一個龐大的系統(tǒng)工程,其中包含很多復(fù)雜的環(huán)節(jié)。大數(shù)據(jù)領(lǐng)域的很多初學(xué)者容易犯的一個錯誤就是把注意力僅僅集中在對數(shù)據(jù)的分析和價值提取上。盡管該步驟的重要性與研究價值不言而喻,但是沒有其他環(huán)節(jié)之間的協(xié)作,數(shù)據(jù)分析和價值提取是無法進行的。

文獻[65]將大數(shù)據(jù)的處理及應(yīng)用劃分為五個階段:數(shù)據(jù)獲取(data acquisition)、信息提取和清洗(information extraction and cleaning)、數(shù)據(jù)聚合與表示(data aggregation and representation)、建模與分析(modeling and analysis)以及解釋(interpretation)。

(1)數(shù)據(jù)獲取

數(shù)據(jù)不是憑空產(chǎn)生的,而是對研究者所感興趣的現(xiàn)象的記錄,例如人類對周圍世界的感知和觀察,包括運動員跑步時與靜息狀態(tài)下的心率、空氣中的PM2.5指數(shù)、計算機操作系統(tǒng)和網(wǎng)站上的用戶登錄日志、各種各樣傳感器記錄的信息以及科學(xué)實驗得到的結(jié)果等。絕大多數(shù)上述數(shù)據(jù)都可以進行一定程度的過濾,過濾后的結(jié)果并不影響研究者對所感興趣的現(xiàn)象的認(rèn)知。在數(shù)據(jù)獲取階段,由于原始的數(shù)據(jù)量過大,如何定義過濾的規(guī)則來使有用的信息得以保存是一個研究熱點。例如,由傳感器收集的數(shù)據(jù)通常具有時空相關(guān)性,如果某個讀數(shù)與其他的不同,則通常可以認(rèn)為這個讀數(shù)是錯誤的,但反過來說,又如何能確定該讀數(shù)反映的不是實際情況呢?

(2)信息提取和清洗

在大多數(shù)情況下,收集到的原始數(shù)據(jù)在內(nèi)容和格式上都不能直接進行分析。實際生活中的數(shù)據(jù)通常不能在拋開其格式的情況下實施有效的分析,例如病人的電子醫(yī)療檔案、各類傳感器的讀數(shù)、音頻和視頻數(shù)據(jù)等。因此,需要針對所處理的數(shù)據(jù)設(shè)計信息提取的具體方法。此外,由于數(shù)據(jù)源本身可能出錯,并且傳輸環(huán)境中不可避免地存在干擾和噪聲,因此需要對數(shù)據(jù)中包含的錯誤進行分析和建模,有針對性地研發(fā)數(shù)據(jù)清洗方法。實際應(yīng)用中的數(shù)據(jù)清洗方法大多與數(shù)據(jù)源和具體應(yīng)用有很強的相關(guān)性。

(3)數(shù)據(jù)聚合與表示

為了對采集到的數(shù)據(jù)實施有效的分析,通常需要大量來自多個數(shù)據(jù)源的異構(gòu)數(shù)據(jù)。例如對某個地區(qū)的空氣質(zhì)量進行綜合性評估時,不僅需要收集常規(guī)的溫度、濕度、風(fēng)力、降水量、各類污染物指數(shù)等數(shù)據(jù),還要獲取往年的同比數(shù)據(jù)以及當(dāng)月或者當(dāng)日的環(huán)比數(shù)據(jù)。這些數(shù)據(jù)的來源不僅包括不同種類的傳感器,還包括已經(jīng)保存在存儲介質(zhì)上的數(shù)據(jù)集,因此需要專門的數(shù)據(jù)轉(zhuǎn)換和聚合機制來處理各類數(shù)據(jù)在結(jié)構(gòu)和語義上的異構(gòu)性。解決異構(gòu)性后所得的聚合數(shù)據(jù)能夠按照統(tǒng)一的標(biāo)準(zhǔn)進行解釋,這里的標(biāo)準(zhǔn)是指符合具體應(yīng)用的分析需求。

(4)建模與分析

針對大數(shù)據(jù)進行查詢和挖掘的方法與傳統(tǒng)的統(tǒng)計分析存在本質(zhì)上的不同。大數(shù)據(jù)通常都包含噪聲,并且具有動態(tài)性、異構(gòu)性、內(nèi)聯(lián)性和不可信性。盡管如此,即使是包含噪聲的大數(shù)據(jù)也要比小樣本的數(shù)據(jù)更有價值,這是因為由頻繁出現(xiàn)的模式和相關(guān)性分析得出的統(tǒng)計信息通常都能夠抑制單個的數(shù)據(jù)波動,并且能夠更加可靠地揭示數(shù)據(jù)中潛在的模式和知識。因此,通過應(yīng)用合適的統(tǒng)計方法,研究者能夠借助近似分析(approximate analysis)來獲得較好的結(jié)果。

(5)解釋

針對已經(jīng)獲得的數(shù)據(jù)分析結(jié)果,決策者需要對其進行解釋。一般來說,解釋的過程涉及檢查所有假設(shè)和跟蹤分析結(jié)果。此外,由于計算機系統(tǒng)本身的故障、模型的前提假設(shè)等,不可避免地會引入錯誤數(shù)據(jù)。決策者不僅需要對計算機給出的分析結(jié)果進行理解,還需要對結(jié)果進行檢驗。因此,大數(shù)據(jù)處理機制的設(shè)計者需要在解釋階段為用戶呈現(xiàn)出友好的界面。考慮到大數(shù)據(jù)本身具有的復(fù)雜性,如何將數(shù)據(jù)分析的結(jié)果友好地呈現(xiàn)出來是一個研究熱點。

2.大數(shù)據(jù)研究與應(yīng)用的挑戰(zhàn)

目前,學(xué)界和業(yè)界投入了大量的資源來實現(xiàn)對大數(shù)據(jù)的價值提取。在對大數(shù)據(jù)進行處理和分析的過程中,研究者總結(jié)出了眾多具有挑戰(zhàn)性的難點。文獻[65]認(rèn)為大數(shù)據(jù)的研究與應(yīng)用面臨著六個方面的挑戰(zhàn):異構(gòu)性(heterogeneity)、不一致性與不完整性(inconsistency and incompleteness)、擴展性(scale)、及時性(timeliness)、隱私與數(shù)據(jù)所有權(quán)(privacy and data ownership)以及可視化與協(xié)作(visualization and collaboration)。在上述六個方面中,異構(gòu)性、擴展性和及時性分別對應(yīng)多樣化、數(shù)量和速度這三個大數(shù)據(jù)的關(guān)鍵特征。

數(shù)據(jù)科學(xué)領(lǐng)域的研究者在研究和處理大數(shù)據(jù)的過程中面臨諸多挑戰(zhàn),其中之一是如何以更少的軟硬件需求對分布式數(shù)據(jù)源產(chǎn)生的海量數(shù)據(jù)進行收集、集成和存儲[44][66]。文獻[67]認(rèn)為大數(shù)據(jù)的理論與技術(shù)的難點主要集中在數(shù)據(jù)的獲取、存儲、查找、共享、分析、管理和可視化上。此外,針對數(shù)據(jù)驅(qū)動的分布式應(yīng)用,數(shù)據(jù)的安全和隱私保護也是一個難點。具體來說,大數(shù)據(jù)的研究與應(yīng)用面臨六個方面的挑戰(zhàn):大數(shù)據(jù)管理、大數(shù)據(jù)清洗、大數(shù)據(jù)聚合、非均衡的系統(tǒng)處理能力、非均衡的大數(shù)據(jù)以及大數(shù)據(jù)分析。

(1)大數(shù)據(jù)管理

為了更好地實現(xiàn)可靠的價值提取,需要對大數(shù)據(jù)進行高效的管理。實際上,良好的大數(shù)據(jù)管理是大數(shù)據(jù)分析的基石。常規(guī)的數(shù)據(jù)管理包含了數(shù)據(jù)清洗、數(shù)據(jù)集成、多源數(shù)據(jù)的統(tǒng)一編碼及存儲。此外,大數(shù)據(jù)管理還意味著確保高效的數(shù)據(jù)存儲以及基于角色的分布式端點多點接入。換言之,大數(shù)據(jù)管理的目標(biāo)是確保數(shù)據(jù)以合適的方式安全地進行存儲,同時方便地進行訪存。

(2)大數(shù)據(jù)清洗

在傳統(tǒng)的數(shù)據(jù)管理機制中,清洗、聚合、編碼、存儲和訪存這五個環(huán)節(jié)就已經(jīng)存在。對于海量數(shù)據(jù)來說,如何應(yīng)對大數(shù)據(jù)的本質(zhì)特征(3V)所帶來的復(fù)雜性,并在擁有多個應(yīng)用程序的分布式環(huán)境下對數(shù)據(jù)進行處理是大數(shù)據(jù)清洗所面臨的挑戰(zhàn)[68]

(3)大數(shù)據(jù)聚合

對于政府機構(gòu)和商業(yè)組織而言,其內(nèi)部存在特定的基礎(chǔ)設(shè)施結(jié)構(gòu),如何將外部的各類數(shù)據(jù)源和分布式數(shù)據(jù)平臺(應(yīng)用程序、數(shù)據(jù)倉庫、傳感器和網(wǎng)絡(luò)等)與內(nèi)部的基礎(chǔ)設(shè)施結(jié)構(gòu)進行同步是一個重大挑戰(zhàn)。在大多數(shù)情況下,僅分析一個組織內(nèi)部產(chǎn)生的數(shù)據(jù)是遠遠不夠的。為了從數(shù)據(jù)中提取更多的價值,需要將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)進行聚合。外部數(shù)據(jù)通常包含第三方數(shù)據(jù)源、金融市場的波動、天氣預(yù)報、交通狀況、社交網(wǎng)絡(luò)、消費者評價和市民反饋等。對于某些特定的應(yīng)用場景,上述外部數(shù)據(jù)能夠提供額外的支持,例如提升數(shù)據(jù)分析階段所使用的預(yù)測模型的性能。

(4)非均衡的系統(tǒng)處理能力

根據(jù)摩爾定律,中央處理器(Central Processing Unit,CPU)的性能每18個月就實現(xiàn)翻倍。此外,磁盤驅(qū)動器的性能也以相同的速率增長。但遺憾的是,輸入/輸出(Input/Output,I/O)操作的性能增長并沒有遵循類似的模式,例如隨機的輸入/輸出操作在以中等的速度增長,而時序(sequential)輸入/輸出操作的速度并沒有隨著存儲密度的增加而表現(xiàn)出較快的增長[69]。因此,上述非均衡的系統(tǒng)處理能力會降低數(shù)據(jù)訪存的速度,進而影響相關(guān)應(yīng)用程序的性能和可擴展性。類似地,對通信網(wǎng)絡(luò)中的設(shè)備進行梳理,很容易發(fā)現(xiàn)不同的路由器、通信鏈路、傳感器、磁盤和內(nèi)存等構(gòu)件均具有不同的性能,它們之間的協(xié)作在整個系統(tǒng)層面通常都不具有較高的性能。

(5)非均衡的大數(shù)據(jù)

一般來說,真實世界中的應(yīng)用程序會產(chǎn)生具有不同分布情況的數(shù)據(jù)。第一類為個數(shù)可以忽略的、代表性不足的樣本,也稱為少數(shù)類或正類(minority or positive class)。第二類為個數(shù)很多的樣本,也稱為多數(shù)類或負(fù)類(majority or negative class)。對少數(shù)類進行快速高效的識別在眾多領(lǐng)域都具有十分重要的意義,例如醫(yī)療診斷(medical diagnosis)[70]、軟件缺陷檢測(software defects detection)[71]、金融預(yù)測(finance prediction)[72]、藥品研發(fā)(drug discovery)[73]和生物信息學(xué)(bio-informatics)[74]等。

由于傳統(tǒng)的學(xué)習(xí)方法在構(gòu)造模型時是基于全局查找策略的,其沒有考慮樣本的個數(shù),因此無法應(yīng)用于非均衡的大數(shù)據(jù)集合。實際上,全局規(guī)則通常都比特定規(guī)則具有更高的優(yōu)先級,這會導(dǎo)致少數(shù)類在模型的構(gòu)造過程中被忽略掉。換言之,標(biāo)準(zhǔn)的學(xué)習(xí)方法沒有對屬于不同類的樣本的個數(shù)差異進行考量[75]。然而,代表性不足的少數(shù)類可以構(gòu)成實現(xiàn)識別的重要案例。文獻[76]指出,實際應(yīng)用場景中的很多問題通常都包含多于兩個的不均勻(uneven)分布,例如蛋白質(zhì)折疊(protein fold)分類和焊接缺陷(weld flaw)分類。上述多類的非均衡問題引入了二分類問題中未曾關(guān)注到的新挑戰(zhàn)。實際上,處理多分類問題比二分類問題要難。目前已有的方法分為兩類:第一類對一些二分類問題的分類方法進行擴展,例如判別分析(discriminant analysis)、決策樹(decision tree)、最近鄰居(k-nearest neighbor)、樸素貝葉斯(naive bayes)、神經(jīng)網(wǎng)絡(luò)(neural network)和支持向量機(Support Vector Machine,SVM)。第二類稱為分解和集成方法(Decomposition and Ensemble Method,DEM),該類方法首先將多分類問題分解為二分類問題的集合,這些二分類問題可以通過傳統(tǒng)的二分類器來解決。然后,通過對二分類器的預(yù)測應(yīng)用集成策略來分類新的樣本[77][78]

(6)大數(shù)據(jù)分析

為了理解大數(shù)據(jù)中各項特征的內(nèi)在聯(lián)系,需要針對海量數(shù)據(jù)的新型分析方法。數(shù)據(jù)分析能夠提取出數(shù)據(jù)中的潛在價值,還能夠?qū)τ绊憶Q策的積極因素和消極因素實施模式監(jiān)測。對于特定領(lǐng)域的數(shù)據(jù)驅(qū)動的應(yīng)用,還需要進行實時(real-time)分析,例如導(dǎo)航(navigation)、社交網(wǎng)絡(luò)(social network)、金融預(yù)測、生物醫(yī)學(xué)(biomedicine)、天文學(xué)(astronomy)和智能交通系統(tǒng)(intelligent transport system)等。因此,需要新型的算法和高效的方法來對數(shù)據(jù)實施分析,進而獲得準(zhǔn)確的結(jié)果,達到監(jiān)測變化和預(yù)測未來的目的[79]。但是,由于大數(shù)據(jù)本身的復(fù)雜性以及內(nèi)在特征(5V),面向海量異構(gòu)數(shù)據(jù)的、具有實時響應(yīng)性的數(shù)據(jù)分析方法是大數(shù)據(jù)研究領(lǐng)域的一個難點[80]

目前流行的數(shù)據(jù)分析技術(shù)包括數(shù)據(jù)挖掘、可視化、統(tǒng)計分析和機器學(xué)習(xí)。從某種角度來說,數(shù)據(jù)分析領(lǐng)域的研究分為兩類:一類是對已有的技術(shù)進行改進,從而提出新的方法;另一類是對不同的算法和技術(shù)進行組合,進而測試其性能。大數(shù)據(jù)的出現(xiàn)不僅推動了系統(tǒng)體系結(jié)構(gòu)和軟硬件的發(fā)展,同時對數(shù)據(jù)分析方法也提出了新的挑戰(zhàn)。例如,當(dāng)數(shù)據(jù)量十分可觀時,如何保證數(shù)據(jù)分析過程中響應(yīng)的及時性。

主站蜘蛛池模板: 政和县| 安顺市| 四平市| 来安县| 曲松县| 昭平县| 于田县| 西藏| 清苑县| 哈尔滨市| 南澳县| 修武县| 上饶县| 筠连县| 眉山市| 天柱县| 武鸣县| 郁南县| 密山市| 友谊县| 邢台市| 女性| 新营市| 宜良县| 盐山县| 同江市| 德钦县| 高青县| 甘谷县| 化州市| 信阳市| 绍兴市| 中方县| 临沭县| 新巴尔虎左旗| 肥东县| 阿克陶县| 都匀市| 额济纳旗| 于田县| 建始县|