1.3.3 紛繁的數據越多越好
通常傳統的統計學家都很難容忍錯誤數據的存在,在搜集樣本時,他們會用一整套的策略來減少錯誤發生的概率。在結果公布之前,他們也會測試樣本是否存在潛在的系統性偏差。這些策略包括根據協議或通過受過專門訓練的專家來采集樣本。但是,即使只是少量的數據,這些規避錯誤的策略實施起來還是耗費巨大。尤其是當搜集所有數據時,在大規模的基礎上保持數據搜集標準的一致性不太現實。
如今,人們已經生活在信息時代,人們掌握的數據庫也越來越全面,包括了與這些現象相關的大量甚至全部數據。人們不再需要那么擔心某個數據點對整套分析的不利影響,要做的就是要接受這些紛繁的數據并從中受益,而不是以高昂的代價消除所有的不確定性。
在華盛頓州布萊恩市的英國石油公司(BP)切里波因特煉油廠(見圖1-8)中,無線感應器遍布于整個工廠,形成無形的網絡,能夠產生大量實時數據。在這里,酷熱的惡劣環境和電氣設備的存在有時會對感應器讀數有所影響,形成錯誤的數據。但是數據生成的數量之多可以彌補這些小錯誤。隨時監測管道的承壓使得BP能夠了解到有些種類的原油比其他種類更具有腐蝕性。以前,這都是無法發現也無法防止的。

圖1-8 煉油廠
有時候,當人們掌握了大量新型數據時,精確性就不那么重要了,人們同樣可以掌握事情的發展趨勢。除了一開始會與人們的直覺相矛盾之外,接受數據的不精確和不完美反而能夠更好地進行預測,也能夠更好地理解這個世界。
值得注意的是,錯誤性并不是大數據本身固有的特性,而是一個亟需人們去處理的現實問題,并且有可能長期存在,它只是人們用來測量、記錄和交流數據的工具的一個缺陷。因為擁有更大數據量所能帶來的商業利益遠遠超過增加一點精確性,所以通常人們不會再花大力氣去提升數據的精確性。這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據帶來的利益,讓人們能夠接受不精確的存在。
- 旅游心理學(第二版)
- 王傳麗《國際經濟法》(高等教育出版社第2版)筆記和課后習題詳解
- 陳傳明《管理學原理》(第2版)配套題庫【名校考研真題+課后習題+章節題庫+模擬試題】
- 嵌入式系統的設計與開發
- 現代通信技術概論(第4版)
- 程序設計基礎實驗和學習指導(C語言·微課版)
- 供應鏈管理
- 創意圖案設計實驗教程
- 馬文蔚《物理學》(第6版)(下冊)配套題庫【名校考研真題+課后習題+章節題庫+模擬試題】
- 光電檢測技術及應用
- 2019年證券公司高級管理人員資質測試復習全書【大綱詳解+模擬試題】
- 一體化服裝設計應用教程(裙褲篇)
- 2019年11月北京地區成人英語三級高分應試教程【命題分析+技巧指南+專項練習+綜合模擬】
- 魏華林《保險學》【教材精講+考研真題解析】講義與視頻課程【42小時高清視頻】
- 西方音樂史與名作賞析