- 大數(shù)據(jù)及其可視化
- 周蘇 王文
- 1202字
- 2019-10-23 15:52:20
1.3.1 允許不精確
對“小數(shù)據(jù)”而言,最基本、最重要的要求是減少錯誤,保證質(zhì)量。因為搜集的信息量比較少,所以必須確保記錄下來的數(shù)據(jù)盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測量的工具,發(fā)展了可以準(zhǔn)確搜集、記錄和管理數(shù)據(jù)的方法。在采樣時,對精確度的要求更高更苛刻。因為搜集信息的有限性意味著細(xì)微的錯誤會被放大,甚至有可能影響整個結(jié)果的準(zhǔn)確性。
然而,在不斷涌現(xiàn)的新情況里,允許不精確地出現(xiàn)已經(jīng)成為一個亮點。因為放松了容錯的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來,還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。
同時,人們需要與各種各樣的混亂作斗爭。混亂,簡單地說就是隨著數(shù)據(jù)的增加,錯誤率也會相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍,其中的部分讀數(shù)就可能是錯誤的,而且隨著讀數(shù)量的增加,錯誤率可能也會繼續(xù)增加。在整合來源不同的各類信息時,因為它們通常不完全一致,所以也會加大混亂程度。
混亂還可以指格式的不一致性,因為要達(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。
當(dāng)然,在萃取或處理數(shù)據(jù)時,混亂也會發(fā)生。因為在進(jìn)行數(shù)據(jù)轉(zhuǎn)化時,我們是在把它變成另外的事物。比如,葡萄是溫帶植物,溫度是葡萄生長發(fā)育的重要因素,假設(shè)要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數(shù)據(jù)可能會是錯誤的,可能會更加混亂,但眾多的讀數(shù)合起來就可以提供一個更加準(zhǔn)確的結(jié)果。因為這里面包含了更多的數(shù)據(jù),而它不僅能抵消掉錯誤數(shù)據(jù)造成的影響,還能提供更多的額外價值。
大數(shù)據(jù)在多大程度上優(yōu)于算法,這個問題在自然語言處理上表現(xiàn)得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點更有效。所以,在實施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會有什么不同的變化。很多對計算機(jī)學(xué)習(xí)算法的研究都建立在百萬字左右的語料庫基礎(chǔ)上。最后,他們決定往4種常見的算法中逐漸添加數(shù)據(jù),先是一千萬字,再到一億字,最后到十億。
結(jié)果有點令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高。當(dāng)數(shù)據(jù)只有500萬時,有一種簡單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億時,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運行最好的算法,在加入更多的數(shù)據(jù)時,也會像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運行最不好的。
后來,班科和布里爾在他們發(fā)表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語料庫發(fā)展上?!?/p>
- 2020年湖南公務(wù)員錄用考試專項教材數(shù)量關(guān)系【考點精講+典型題(含歷年真題)詳解】
- 浙江工商大學(xué)外國語學(xué)院357英語翻譯基礎(chǔ)[專業(yè)碩士]歷年考研真題及詳解
- 管理信息系統(tǒng)項目式案例教程
- 服務(wù)營銷(原書第7版)
- 證券法
- 會計學(xué)原理
- 畜產(chǎn)品加工實驗指導(dǎo)
- 服裝設(shè)計元素
- 信息分析:數(shù)據(jù)、方法與應(yīng)用的視角
- 北京大學(xué)對外漢語教育學(xué)院354漢語基礎(chǔ)[專業(yè)碩士]歷年考研真題視頻詳解【15.1小時高清視頻】
- 風(fēng)景園林設(shè)計原理(第四版)
- 汽車運用工程(第2版)
- 機(jī)械工程材料
- 社交媒體公信力
- 動畫角色設(shè)計