官术网_书友最值得收藏!

2.2 大數(shù)據(jù)處理面臨的問題

雖然大數(shù)據(jù)時(shí)代的數(shù)據(jù)能為我們創(chuàng)造更多的價(jià)值,但因其具有與傳統(tǒng)數(shù)據(jù)不同的特點(diǎn),而在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)顯示、數(shù)據(jù)安全與隱私、數(shù)據(jù)能耗等方面面臨新的問題與挑戰(zhàn)。

(1)數(shù)據(jù)存儲(chǔ)。大數(shù)據(jù)不僅數(shù)據(jù)量大、結(jié)構(gòu)形式多樣,而且數(shù)據(jù)分散、標(biāo)準(zhǔn)不一、實(shí)時(shí)性強(qiáng),因此,使用傳統(tǒng)的技術(shù)進(jìn)行數(shù)據(jù)的采集、整合變得非常困難,由此引發(fā)的數(shù)據(jù)存儲(chǔ)也面臨新的問題。大數(shù)據(jù)的存儲(chǔ)方式既影響數(shù)據(jù)分析處理的效率,又影響數(shù)據(jù)存儲(chǔ)的成本。研究高效率、低成本的大數(shù)據(jù)存儲(chǔ)方式是目前有待解決的問題之一。

(2)數(shù)據(jù)分析。數(shù)據(jù)分析是大數(shù)據(jù)處理的核心,數(shù)據(jù)分析的效率直接影響大數(shù)據(jù)產(chǎn)生的價(jià)值。在數(shù)據(jù)分析方面目前也面臨很多問題。一方面,海量的數(shù)據(jù)存在大量噪聲,數(shù)據(jù)清洗預(yù)處理非常重要,但很多有用的信息混雜在海量的數(shù)據(jù)中,清洗粒度過細(xì)會(huì)導(dǎo)致有用的信息被過濾掉,清洗粒度過粗又達(dá)不到清洗的效果,因此需要在質(zhì)與量之間做好權(quán)衡,這對(duì)計(jì)算機(jī)硬件和機(jī)器學(xué)習(xí)算法都是一個(gè)嚴(yán)峻的考驗(yàn)。另一方面,與傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)相比,大數(shù)據(jù)分析在強(qiáng)調(diào)準(zhǔn)確性的同時(shí),更注重實(shí)時(shí)性,因?yàn)榇髷?shù)據(jù)蘊(yùn)含的價(jià)值會(huì)隨著時(shí)間的流逝而衰減,因此需要研究更有效、更實(shí)用的大數(shù)據(jù)分析和處理技術(shù)。

(3)數(shù)據(jù)顯示。相對(duì)于數(shù)據(jù)分析,一般用戶更注重?cái)?shù)據(jù)的顯示方式。傳統(tǒng)的以文本為主輸出結(jié)果的方式和在計(jì)算機(jī)終端上直接顯示結(jié)果的方式適合于少量數(shù)據(jù)的處理,對(duì)于大數(shù)據(jù)的顯示,人們?cè)诳吹浇Y(jié)果的同時(shí),還希望顯示輸出大數(shù)據(jù)處理的中間結(jié)果,這就需要引入新的可視化處理技術(shù),使得用戶能夠更好地理解顯示的結(jié)果。

(4)數(shù)據(jù)安全與隱私。數(shù)據(jù)量的迅速增長(zhǎng)引發(fā)了數(shù)據(jù)安全與隱私問題。社交網(wǎng)絡(luò)的興起讓越來越多的數(shù)據(jù)以不同的形式存儲(chǔ)于計(jì)算機(jī)中,數(shù)據(jù)產(chǎn)生的同時(shí)留下了人們生成數(shù)據(jù)的痕跡,如果將某個(gè)人在不同地點(diǎn)、不同時(shí)間的數(shù)據(jù)積累起來,這會(huì)引起潛在攻擊者的注意,從而導(dǎo)致數(shù)據(jù)安全和個(gè)人隱私暴露問題。大數(shù)據(jù)時(shí)代數(shù)據(jù)的安全與隱私問題面臨巨大的挑戰(zhàn)。

(5)數(shù)據(jù)能耗。美國(guó)《紐約時(shí)報(bào)》和美國(guó)麥肯錫咨詢公司的一項(xiàng)調(diào)查數(shù)據(jù)顯示[94],臉書數(shù)據(jù)中心的年耗電量約60萬瓦,谷歌數(shù)據(jù)中心的年耗電量達(dá)300萬瓦左右,而這巨大的能耗中只有6%~12%是用來響應(yīng)用戶查詢并進(jìn)行計(jì)算的,大部分的能耗被用于確保服務(wù)器正常運(yùn)轉(zhuǎn),以應(yīng)對(duì)突發(fā)的網(wǎng)絡(luò)流量高峰等情況。這些數(shù)據(jù)充分說明,在能源價(jià)格不斷上漲、數(shù)據(jù)規(guī)模不斷擴(kuò)大的時(shí)代,大數(shù)據(jù)的能耗也是必須考慮并解決的問題之一。

主站蜘蛛池模板: 海丰县| 无为县| 绥棱县| 门源| 靖远县| 宝丰县| 望城县| 武汉市| 郑州市| 泗水县| 祁东县| 安义县| 上蔡县| 通化市| 澄城县| 伊宁市| 师宗县| 临海市| 子长县| 滨海县| 博湖县| 眉山市| 琼海市| 晋中市| 蒙山县| 柳林县| 井研县| 兴化市| 福贡县| 桓台县| 青龙| 汨罗市| 图们市| 江口县| 星座| 临武县| 通海县| 海兴县| 广西| 高邑县| 西丰县|