官术网_书友最值得收藏!

1.3.3 紛繁的數據越多越好

通常傳統的統計學家都很難容忍錯誤數據的存在,在搜集樣本時,他們會用一整套的策略來減少錯誤發生的概率。在結果公布之前,他們也會測試樣本是否存在潛在的系統性偏差。這些策略包括根據協議或通過受過專門訓練的專家來采集樣本。但是,即使只是少量的數據,這些規避錯誤的策略實施起來還是耗費巨大。尤其是當搜集所有數據時,在大規模的基礎上保持數據搜集標準的一致性不太現實。

如今,人們已經生活在信息時代,人們掌握的數據庫也越來越全面,包括了與這些現象相關的大量甚至全部數據。人們不再需要那么擔心某個數據點對整套分析的不利影響,要做的就是要接受這些紛繁的數據并從中受益,而不是以高昂的代價消除所有的不確定性。

在華盛頓州布萊恩市的英國石油公司(BP)切里波因特煉油廠(見圖1-8)中,無線感應器遍布于整個工廠,形成無形的網絡,能夠產生大量實時數據。在這里,酷熱的惡劣環境和電氣設備的存在有時會對感應器讀數有所影響,形成錯誤的數據。但是數據生成的數量之多可以彌補這些小錯誤。隨時監測管道的承壓使得BP能夠了解到有些種類的原油比其他種類更具有腐蝕性。以前,這都是無法發現也無法防止的。

圖1-8 煉油廠

有時候,當人們掌握了大量新型數據時,精確性就不那么重要了,人們同樣可以掌握事情的發展趨勢。除了一開始會與人們的直覺相矛盾之外,接受數據的不精確和不完美反而能夠更好地進行預測,也能夠更好地理解這個世界。

值得注意的是,錯誤性并不是大數據本身固有的特性,而是一個亟需人們去處理的現實問題,并且有可能長期存在,它只是人們用來測量、記錄和交流數據的工具的一個缺陷。因為擁有更大數據量所能帶來的商業利益遠遠超過增加一點精確性,所以通常人們不會再花大力氣去提升數據的精確性。這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據帶來的利益,讓人們能夠接受不精確的存在。

主站蜘蛛池模板: 黄龙县| 阜康市| 屏东市| 辽宁省| 盖州市| 台北县| 康保县| 普兰县| 高要市| 翁牛特旗| 察雅县| 德化县| 正镶白旗| 屏东市| 常熟市| 弥渡县| 佛冈县| 女性| 安远县| 彰化县| 台安县| 宁化县| 长宁县| 武威市| 壶关县| 福鼎市| 麻城市| 巴塘县| 英吉沙县| 宁德市| 康乐县| 左云县| 苏尼特左旗| 佛山市| 西峡县| 资兴市| 绩溪县| 林西县| 涿州市| 成安县| 舟曲县|