- 大數(shù)據(jù)及其可視化
- 周蘇 王文
- 928字
- 2019-10-23 15:52:22
2.1.1 數(shù)據(jù)的可變性
以美國國家公路交通安全管理局發(fā)布的公路交通事故數(shù)據(jù)為例,來了解數(shù)據(jù)的可變性。
例如,從2001年到2010年,根據(jù)美國國家公路交通安全管理局發(fā)布的數(shù)據(jù),全美共發(fā)生了363839起致命的公路交通事故。這個總數(shù)代表著那部分逝去的生命,如圖2-3所示,把所有注意力放在這個數(shù)字上,能讓人們深思,甚至反省自己的一生。
然而,除了安全駕駛之外,從這個數(shù)據(jù)中還學(xué)到什么呢?由于所提供的數(shù)據(jù)具體到了每一起事故及其發(fā)生的時間和地點,人們可以從中了解到更多的信息。
如果在地圖中畫出2001年至2010年間全美國發(fā)生的每一起致命的交通事故,用一個點代表一起事故,就可以看到事故多集中發(fā)生在大城市和高速公路主干道上,而人煙稀少的地方和道路幾乎沒有事故發(fā)生過。此外,這幅圖除了告訴人們對交通事故不能掉以輕心之外,還告訴人們關(guān)于美國公路網(wǎng)絡(luò)的情況。
觀察這些年里發(fā)生的交通事故,人們會把關(guān)注焦點切換到這些具體的事故上。圖2-4顯示了每年發(fā)生的交通事故總數(shù),所表達的內(nèi)容與簡單告知一個總數(shù)完全不同。雖然每年仍會發(fā)生成千上萬起交通事故,但通過觀察可以看到,2006年到2010年間事故顯著呈下降趨勢。

圖2-3 2001年至2010年全美公路致命交通事故總數(shù)

圖2-4 每年的致命交通事故數(shù)
從圖2-5中可以看出,交通事故發(fā)生的季節(jié)性周期很明顯。夏季是事故多發(fā)期,因為此時外出旅游的人較多。而在冬季,開車出門旅行的人相對較少,事故就會少很多。每年都是如此。同時,還可以看到2006年到2010年呈下降趨勢。

圖2-5 月度致命交通事故數(shù)
如果比較那些年的具體月份,還有一些變化。例如,在2001年,8月份的事故最多,9月份相對回落。從2002年到2004年每年都是這樣。從2005年到2007年,每年7月份的事故最多。從2008年到2010年又變成了8月份。另一方面,因為每年2月份的天數(shù)最少,事故數(shù)也就最少,只有2008年例外。因此,這里存在不同季節(jié)的變化和季節(jié)內(nèi)的變化。
還可以更加詳細地觀察每日的交通事故數(shù),例如看出高峰和低谷模式,可以看出周循環(huán)周期,(就是周末比周中事故多),以及每周的高峰日在周五、周六和周日間的波動??梢岳^續(xù)增加數(shù)據(jù)的粒度,即觀察每小時的數(shù)據(jù)。
重要的是,查看這些數(shù)據(jù)比查看平均數(shù)、中位數(shù)和總數(shù)更有價值,測量值只告訴人們一小部分信息。大多時候,總數(shù)或數(shù)值只是告訴人們分布的中間在哪里,而未能顯示出應(yīng)該關(guān)注的細節(jié)。