官术网_书友最值得收藏!

2.1.3 數據的背景信息

仰望夜空,滿天繁星看上去就像平面上的一個個點(見圖2-6)。若感覺不到視覺深度,會覺得星星都離自己一樣遠,很容易就能把星空直接搬到紙面上,于是星座也就不難想象了,把一個個點連接起來即可。但實際上,不同的星星與你的距離可能相差許多光年。假如你能飛得比星星還遠,星座看起來又會是什么樣呢?

如果切換到顯示實際距離的模式,星星的位置轉移了,原先容易辨別的星座也幾乎認不出來。從新的視角出發,數據看起來也就不同,這就是背景信息的作用。背景信息可以完全改變一個人對某一個數據集的看法,它能幫助人們確定數據代表什么以及如何解釋。在確切了解了數據的含義之后,你的理解會幫你找出有趣的信息,從而帶來有價值的可視化效果。

圖2-6 星空視圖

使用數據而不了解數值本身之外的任何信息,就好比拿斷章取義的片段作為文章的主要論點引用一樣。這樣做或許沒有問題,但卻可能完全誤解說話人的意思。必須首先了解何人、如何、何事、何時、何地以及何因,即元數據,或者說關于數據的數據,然后才能了解數據的本質是什么。

何人(who):“誰搜集了數據”和“數據是關于誰的”同樣重要。

如何(how):大致了解怎樣獲取你感興趣的數據。如果數據是你搜集的,那一切都好,但如果數據只是從網上獲取到的,那就不需要知道每種數據集背后精確的統計模型,但要小心小樣本,樣本小,誤差率就高,也要小心不合適的假設,比如包含不一致或不相關信息的指數或排名等。

何事(what):還要知道自己的數據是關于什么的,應該知道圍繞在數字周圍的信息是什么。可以跟學科專家交流、閱讀論文及相關文件。

何時(when):數據大都以某種方式與時間關聯。數據可能是一個時間序列,或者是特定時期的一組快照。不論是哪一種,都必須清楚知道數據是什么時候采集的。由于只能得到舊數據,于是很多人會把舊數據當成現在的數據使用,這是一種常見的錯誤。事在變,人在變,地點也在變,數據自然也會變。

何地(where):正如事情會隨著時間變化一樣,它們也會隨著城市、地區和國家的不同而變化:例如,不要將來自少數幾個國家的數據推及整個世界。同樣的道理也適用于數字定位。一些網站的數據能夠概括網站用戶的行為,但未必適用于物理世界。

為何(why):最后,必須了解搜集數據的原因,通常這是為了檢查一下數據是否存在偏頗。有時人們搜集甚至捏造數據只是為了應付某項議程,應當警惕這種情況。

首要任務是竭盡所能地了解自己的數據,這樣,數據分析和可視化會因此而增色。可視化通常被認為是一種圖形設計或破解計算機科學問題的練習,但最好的作品往往來源于數據。要可視化數據,必須理解數據是什么,它代表了現實世界中的什么,以及應該在什么樣的背景信息中解釋它。

在不同的粒度上,數據會呈現出不同的形狀和大小,并帶有不確定性,這意味著總數、平均數和中位數只是數據點的一小部分。數據是曲折的、旋轉的,也是波動的、個性化的,甚至是富有詩意的。因此,可以看到多種形式的可視化數據。

主站蜘蛛池模板: 湛江市| 西林县| 梨树县| 长寿区| 竹溪县| 南充市| 新民市| 泽州县| 米脂县| 贡觉县| 茌平县| 肃北| 电白县| 阿坝县| 丹寨县| 宁南县| 米脂县| 阳春市| 常德市| 布拖县| 潼南县| 杭锦后旗| 屏东县| 科技| 贵港市| 奉贤区| 通江县| 塘沽区| 衢州市| 辛集市| 阿克陶县| 且末县| 武义县| 大厂| 西和县| 凌海市| 岳池县| 巧家县| 张掖市| 城口县| 宁波市|