- 大數據及其可視化
- 周蘇 王文
- 524字
- 2019-10-23 15:52:22
2.1.2 數據的不確定性
通常,大部分數據都是估算的,并不精確。分析師會研究一個樣本,并據此猜測整體的情況。人們會基于自己的知識和見聞來猜測,即使大多時候所猜測的是正確的,但仍然存在不確定性。例如,筆記本電腦上的電池壽命估計會按小時增量跳動,地鐵預告說下一班車將會在10分鐘內到達,但實際上是11分鐘,或者預計在周一送達的一份快件往往周三才到。
如果數據是一系列平均數和中位數,或者是基于一個樣本群體的一些估算,就應該時時考慮其存在的不確定性。當人們基于類似全國人口或世界人口的預測數做影響廣泛的重大決定時,這一點尤為重要,因為一個很小的誤差可能會導致巨大的差異。
換個角度,想象有一罐彩虹糖,你想猜猜罐子里每種顏色的彩虹糖各有多少顆。如果把一罐彩虹糖統統倒在桌子上,一顆顆數,那就不用再估算。但是,如果只能抓一把,然后基于手里的彩虹糖推測整罐的情況,這一把抓得越多越大估計值就越接近整罐的情況,也就越容易猜測。相反,如果只能拿一顆彩虹糖,那幾乎無法推測罐子里的情況。
只拿一顆彩虹糖,誤差會很大。而拿一大把彩虹糖,誤差會小很多。如果把整罐都數一遍,誤差就是零。當有數百萬個彩虹糖裝在上千個大小不同的罐子里時,分布各不相同,每一把的大小也不一樣,估算就會變得更復雜了。