2.1.3 數據的背景信息
仰望夜空,滿天繁星看上去就像平面上的一個個點(見圖2-6)。若感覺不到視覺深度,會覺得星星都離自己一樣遠,很容易就能把星空直接搬到紙面上,于是星座也就不難想象了,把一個個點連接起來即可。但實際上,不同的星星與你的距離可能相差許多光年。假如你能飛得比星星還遠,星座看起來又會是什么樣呢?
如果切換到顯示實際距離的模式,星星的位置轉移了,原先容易辨別的星座也幾乎認不出來。從新的視角出發,數據看起來也就不同,這就是背景信息的作用。背景信息可以完全改變一個人對某一個數據集的看法,它能幫助人們確定數據代表什么以及如何解釋。在確切了解了數據的含義之后,你的理解會幫你找出有趣的信息,從而帶來有價值的可視化效果。

圖2-6 星空視圖
使用數據而不了解數值本身之外的任何信息,就好比拿斷章取義的片段作為文章的主要論點引用一樣。這樣做或許沒有問題,但卻可能完全誤解說話人的意思。必須首先了解何人、如何、何事、何時、何地以及何因,即元數據,或者說關于數據的數據,然后才能了解數據的本質是什么。
何人(who):“誰搜集了數據”和“數據是關于誰的”同樣重要。
如何(how):大致了解怎樣獲取你感興趣的數據。如果數據是你搜集的,那一切都好,但如果數據只是從網上獲取到的,那就不需要知道每種數據集背后精確的統計模型,但要小心小樣本,樣本小,誤差率就高,也要小心不合適的假設,比如包含不一致或不相關信息的指數或排名等。
何事(what):還要知道自己的數據是關于什么的,應該知道圍繞在數字周圍的信息是什么。可以跟學科專家交流、閱讀論文及相關文件。
何時(when):數據大都以某種方式與時間關聯。數據可能是一個時間序列,或者是特定時期的一組快照。不論是哪一種,都必須清楚知道數據是什么時候采集的。由于只能得到舊數據,于是很多人會把舊數據當成現在的數據使用,這是一種常見的錯誤。事在變,人在變,地點也在變,數據自然也會變。
何地(where):正如事情會隨著時間變化一樣,它們也會隨著城市、地區和國家的不同而變化:例如,不要將來自少數幾個國家的數據推及整個世界。同樣的道理也適用于數字定位。一些網站的數據能夠概括網站用戶的行為,但未必適用于物理世界。
為何(why):最后,必須了解搜集數據的原因,通常這是為了檢查一下數據是否存在偏頗。有時人們搜集甚至捏造數據只是為了應付某項議程,應當警惕這種情況。
首要任務是竭盡所能地了解自己的數據,這樣,數據分析和可視化會因此而增色。可視化通常被認為是一種圖形設計或破解計算機科學問題的練習,但最好的作品往往來源于數據。要可視化數據,必須理解數據是什么,它代表了現實世界中的什么,以及應該在什么樣的背景信息中解釋它。
在不同的粒度上,數據會呈現出不同的形狀和大小,并帶有不確定性,這意味著總數、平均數和中位數只是數據點的一小部分。數據是曲折的、旋轉的,也是波動的、個性化的,甚至是富有詩意的。因此,可以看到多種形式的可視化數據。
- Android項目實戰:手機安全衛士
- 會計師事務所合并整合研究
- 貨幣金融學(第4版)
- 2020年全國碩士研究生招生考試312心理學專業基礎綜合考試輔導教材
- 服裝CAD應用技術
- 客戶關系管理理論與實踐:基于Microsoft Dynamics CRM
- 北京航空航天大學983經濟學基礎歷年考研真題及詳解
- 現代控制理論基礎
- 高鴻業《西方經濟學(微觀部分)》【教材精講+考研真題解析】講義與視頻課程【30小時高清視頻】
- AutoCAD實用教程
- 2020年甘肅省選調生考試《行政職業能力測驗》考點精講及典型題(含歷年真題)詳解
- 高校法學專業核心課程配套測試:環境資源法(第九版)
- 平狄克《微觀經濟學》(第8版)筆記和課后習題詳解
- 企業碳中和管理
- 工程材料與熱加工