网络抢庄牛牛规律

書名：大數(shù)據(jù)及其可視化
作者名：周蘇王文
本章字?jǐn)?shù)： 1202字
更新時間： 2019-10-23 15:52:20

1.3.1　允許不精確

對“小數(shù)據(jù)”而言，最基本、最重要的要求是減少錯誤，保證質(zhì)量。因為搜集的信息量比較少，所以必須確保記錄下來的數(shù)據(jù)盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小，為了使結(jié)果更加準(zhǔn)確，很多科學(xué)家都致力于優(yōu)化測量的工具，發(fā)展了可以準(zhǔn)確搜集、記錄和管理數(shù)據(jù)的方法。在采樣時，對精確度的要求更高更苛刻。因為搜集信息的有限性意味著細(xì)微的錯誤會被放大，甚至有可能影響整個結(jié)果的準(zhǔn)確性。

然而，在不斷涌現(xiàn)的新情況里，允許不精確地出現(xiàn)已經(jīng)成為一個亮點。因為放松了容錯的標(biāo)準(zhǔn)，人們掌握的數(shù)據(jù)也多了起來，還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡單了，而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。

同時，人們需要與各種各樣的混亂作斗爭。混亂，簡單地說就是隨著數(shù)據(jù)的增加，錯誤率也會相應(yīng)增加。所以，如果橋梁的壓力數(shù)據(jù)量增加1000倍，其中的部分讀數(shù)就可能是錯誤的，而且隨著讀數(shù)量的增加，錯誤率可能也會繼續(xù)增加。在整合來源不同的各類信息時，因為它們通常不完全一致，所以也會加大混亂程度。

混亂還可以指格式的不一致性，因為要達(dá)到格式一致，就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù)，而這在大數(shù)據(jù)背景下很難做到。

當(dāng)然，在萃取或處理數(shù)據(jù)時，混亂也會發(fā)生。因為在進(jìn)行數(shù)據(jù)轉(zhuǎn)化時，我們是在把它變成另外的事物。比如，葡萄是溫帶植物，溫度是葡萄生長發(fā)育的重要因素，假設(shè)要測量一個葡萄園的溫度，但是整個葡萄園只有一個溫度測量儀，那就必須確保這個測量儀是精確的而且能夠一直工作。反過來，如果每100棵葡萄樹就有一個測量儀，有些測試的數(shù)據(jù)可能會是錯誤的，可能會更加混亂，但眾多的讀數(shù)合起來就可以提供一個更加準(zhǔn)確的結(jié)果。因為這里面包含了更多的數(shù)據(jù)，而它不僅能抵消掉錯誤數(shù)據(jù)造成的影響，還能提供更多的額外價值。

大數(shù)據(jù)在多大程度上優(yōu)于算法，這個問題在自然語言處理上表現(xiàn)得很明顯。2000年，微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法，還是添加更加細(xì)膩精致的特點更有效。所以，在實施這些措施之前，他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù)，看看會有什么不同的變化。很多對計算機(jī)學(xué)習(xí)算法的研究都建立在百萬字左右的語料庫基礎(chǔ)上。最后，他們決定往4種常見的算法中逐漸添加數(shù)據(jù)，先是一千萬字，再到一億字，最后到十億。

結(jié)果有點令人吃驚。他們發(fā)現(xiàn)，隨著數(shù)據(jù)的增多，4種算法的表現(xiàn)都大幅提高。當(dāng)數(shù)據(jù)只有500萬時，有一種簡單的算法表現(xiàn)得很差，但當(dāng)數(shù)據(jù)達(dá)10億時，它變成了表現(xiàn)最好的，準(zhǔn)確率從原來的75％提高到了95％以上。與之相反地，在少量數(shù)據(jù)情況下運行最好的算法，在加入更多的數(shù)據(jù)時，也會像其他的算法一樣有所提高，但是卻變成了在大量數(shù)據(jù)條件下運行最不好的。

后來，班科和布里爾在他們發(fā)表的研究論文中寫到，“如此一來，我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語料庫發(fā)展上?！?/p>

官术网_书友最值得收藏!

大數(shù)據(jù)及其可視化

1.3.1 允許不精確

1.3.1　允許不精確