官术网_书友最值得收藏!

1.3.1 允許不精確

對“小數(shù)據(jù)”而言,最基本、最重要的要求是減少錯誤,保證質(zhì)量。因為搜集的信息量比較少,所以必須確保記錄下來的數(shù)據(jù)盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測量的工具,發(fā)展了可以準(zhǔn)確搜集、記錄和管理數(shù)據(jù)的方法。在采樣時,對精確度的要求更高更苛刻。因為搜集信息的有限性意味著細(xì)微的錯誤會被放大,甚至有可能影響整個結(jié)果的準(zhǔn)確性。

然而,在不斷涌現(xiàn)的新情況里,允許不精確地出現(xiàn)已經(jīng)成為一個亮點。因為放松了容錯的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來,還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。

同時,人們需要與各種各樣的混亂作斗爭。混亂,簡單地說就是隨著數(shù)據(jù)的增加,錯誤率也會相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍,其中的部分讀數(shù)就可能是錯誤的,而且隨著讀數(shù)量的增加,錯誤率可能也會繼續(xù)增加。在整合來源不同的各類信息時,因為它們通常不完全一致,所以也會加大混亂程度。

混亂還可以指格式的不一致性,因為要達(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。

當(dāng)然,在萃取或處理數(shù)據(jù)時,混亂也會發(fā)生。因為在進(jìn)行數(shù)據(jù)轉(zhuǎn)化時,我們是在把它變成另外的事物。比如,葡萄是溫帶植物,溫度是葡萄生長發(fā)育的重要因素,假設(shè)要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數(shù)據(jù)可能會是錯誤的,可能會更加混亂,但眾多的讀數(shù)合起來就可以提供一個更加準(zhǔn)確的結(jié)果。因為這里面包含了更多的數(shù)據(jù),而它不僅能抵消掉錯誤數(shù)據(jù)造成的影響,還能提供更多的額外價值。

大數(shù)據(jù)在多大程度上優(yōu)于算法,這個問題在自然語言處理上表現(xiàn)得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點更有效。所以,在實施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會有什么不同的變化。很多對計算機(jī)學(xué)習(xí)算法的研究都建立在百萬字左右的語料庫基礎(chǔ)上。最后,他們決定往4種常見的算法中逐漸添加數(shù)據(jù),先是一千萬字,再到一億字,最后到十億。

結(jié)果有點令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高。當(dāng)數(shù)據(jù)只有500萬時,有一種簡單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億時,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運行最好的算法,在加入更多的數(shù)據(jù)時,也會像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運行最不好的。

后來,班科和布里爾在他們發(fā)表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語料庫發(fā)展上?!?/p>

主站蜘蛛池模板: 思南县| 辉县市| 万年县| 新郑市| 新竹县| 永川市| 开远市| 鄯善县| 建始县| 札达县| 汨罗市| 天峨县| 澄迈县| 栾城县| 县级市| 武清区| 蕲春县| 汤阴县| 新平| 柏乡县| 雅江县| 镇平县| 即墨市| 海兴县| 西林县| 澄城县| 通榆县| 嘉峪关市| 平利县| 定襄县| 简阳市| 陆丰市| 乐清市| 同心县| 高青县| 阜新市| 佛学| 盐亭县| 三明市| 蒙城县| 林西县|