官术网_书友最值得收藏!

  • 大數據及其可視化
  • 周蘇 王文
  • 524字
  • 2019-10-23 15:52:22

2.1.2 數據的不確定性

通常,大部分數據都是估算的,并不精確。分析師會研究一個樣本,并據此猜測整體的情況。人們會基于自己的知識和見聞來猜測,即使大多時候所猜測的是正確的,但仍然存在不確定性。例如,筆記本電腦上的電池壽命估計會按小時增量跳動,地鐵預告說下一班車將會在10分鐘內到達,但實際上是11分鐘,或者預計在周一送達的一份快件往往周三才到。

如果數據是一系列平均數和中位數,或者是基于一個樣本群體的一些估算,就應該時時考慮其存在的不確定性。當人們基于類似全國人口或世界人口的預測數做影響廣泛的重大決定時,這一點尤為重要,因為一個很小的誤差可能會導致巨大的差異。

換個角度,想象有一罐彩虹糖,你想猜猜罐子里每種顏色的彩虹糖各有多少顆。如果把一罐彩虹糖統統倒在桌子上,一顆顆數,那就不用再估算。但是,如果只能抓一把,然后基于手里的彩虹糖推測整罐的情況,這一把抓得越多越大估計值就越接近整罐的情況,也就越容易猜測。相反,如果只能拿一顆彩虹糖,那幾乎無法推測罐子里的情況。

只拿一顆彩虹糖,誤差會很大。而拿一大把彩虹糖,誤差會小很多。如果把整罐都數一遍,誤差就是零。當有數百萬個彩虹糖裝在上千個大小不同的罐子里時,分布各不相同,每一把的大小也不一樣,估算就會變得更復雜了。

主站蜘蛛池模板: 马尔康县| 临汾市| 塘沽区| 安徽省| 龙里县| 安徽省| 任丘市| 晋州市| 六枝特区| 长春市| 禹城市| 屏东市| 伽师县| 临高县| 体育| 宜宾县| 远安县| 南通市| 仁布县| 阆中市| 山阳县| 墨玉县| 武穴市| 祁门县| 什邡市| 泗洪县| 新晃| 营山县| 宜君县| 四川省| 望奎县| 黄浦区| 二手房| 通许县| 咸宁市| 宁陵县| 锡林浩特市| 镇安县| 泽州县| 木兰县| 扎鲁特旗|