- 數據挖掘:你必須知道的32個經典案例(第2版)
- 任昱衡 姜斌 李倩興 米曉飛
- 3398字
- 2019-07-25 11:35:55
1.3 數據可視化——數據新聞促使英軍撤軍
2010年10月,《衛報》利用維基解密的數據做出一則數據新聞,新聞發表后引起轟動,最終促使英軍做出撤出駐伊拉克軍隊的決定。這個案例是數據新聞的經典成功之作,掀起了新聞界的新一輪革命,同時也表明了圖形展示的力量。本節圍繞該案例展開,介紹了數據可視化的重要性,并總結出數據可視化中常見的基礎知識。
1.3.1 維基解密帶來的海量數據
2006年,阿桑奇創辦了以信息自由、揭開事實真相等為宗旨的維基解密網。阿桑奇本人是一名技術頂尖的黑客,以還原歷史真相為樂,其做出的最大貢獻就是發布了阿富汗戰爭日志和伊拉克戰爭日志。維基解密共公開了關于駐阿富汗美軍的9.2萬份文件,以及關于駐伊拉克美軍的近40萬份文件。這些文件都是美國的機密,這種行為遭到了美國政府的封殺。
這兩份戰爭日志包括3種形式:“日記挖掘”(Diary Dig)、“戰爭日志”(Warlog)和BT下載,格式有CSV和SQL兩種。“日記挖掘”允許用戶搜索材料,并可以按事件或地區等主題瀏覽。“戰爭日志”站點允許讀者打造自己的事件“分析”,并可以投票,應該對哪些戰爭日志進行“深入調查”。
維基解密同時還聯合谷歌地圖,以及英國《衛報》等機構進行了數據可視化處理,以便讀者理解戰爭日志的含義。在兩份戰爭日志中,內容更翔實、影響更廣泛的無疑是伊拉克戰爭日志。
關于伊拉克戰爭的秘密文檔的時間跨度為2004年年初至2009年年末,在這6年時間里,伊拉克戰爭共造成28.5萬人死傷,其中至少有10.9萬人死亡。在死亡人數中,包括6.6萬名伊拉克平民,近2.4萬名“敵人”,逾1.5萬名伊拉克安全部隊成員及3700多名駐伊拉克美軍及聯軍士兵,這些數字高于早前外界對同期伊拉克戰爭死亡人數的統計。
文件同時顯示,大量伊拉克平民慘遭強奸、虐待,但美軍對虐囚行為不聞不問。伊拉克戰爭日志一經發布,立即引起軒然大波,但美國媒體在報道時刻意避開了關于伊拉克死傷平民的報告,在美國電視臺采訪阿桑奇時也將重點放在阿桑奇的強奸案上,而非伊拉克戰爭日志中提到的平民問題。這種回避的態度也從另一方面說明了美軍虐殺伊拉克平民的嚴重性。
阿桑奇從近40萬份文件中統計出的死傷人數畢竟只是一行數字,英國《衛報》根據戰爭日志制作的數據新聞讓人更加容易理解。數據新聞可以對公開數據進行挖掘和重整,完成深度報道。國外甚至出現了Narrative算法,使計算機每隔30秒左右就能撰寫一則新聞報道。這種技術目前主要運用于金融新聞和體育新聞。
數據新聞的長足發展引發了新聞界的革命,但值得注意的是,數據新聞這種形式仍然立足于海量數據的收集、整理,以及優秀的數據可視化手段,而非高深的數據分析方法。
1.3.2 百花齊放的數據新聞
2010年10月23日,《衛報》利用維基解密的數據制作了一幅精致的地圖,地圖上將伊拉克戰爭中所有的人員傷亡情況標注了出來,共計39萬多個紅點。地圖中一個紅點便代表一次死傷事件,谷歌地圖提供的軟件使這幅地圖成為交互式的地圖,只需用鼠標單擊紅點,便會彈出與死傷者相關的信息:傷亡人數、時間,造成傷亡的具體原因等。
這39萬多的死傷者不僅有美國大兵,也有伊拉克的無辜平民。維基解密總結出來的一條條數據展示在地圖上后顯得更加觸目驚心。這張紅點地圖所揭示的新聞事實引起英國社會的轟動,并在很大程度上推動了英國做出撤軍伊拉克的決定。
這并不是《衛報》第一次成功運用數據可視化的手段制作新聞,2009年,它根據英國下院公布的5500個PDF文檔挖掘出關于英國議員開銷的數據報道。
在我國,數據新聞也正在變得越來越普及,利用各類新聞數據制作的數據圖表具有生動活潑、信息豐富、易解讀等優點,被廣泛應用于各類新聞報道中。財新網所創辦的“數字說”欄目就是這樣一個專門用數據做新聞的欄目。
圖1.3由兩幅相互關聯的小圖組成,左邊圖片的主題是華人富豪財富積累途徑,右邊圖片的主題是華人富豪在各行業中的占比,這兩幅圖均摘自“數字說”欄目,統計數據來源為1577位資產超過20億元的華人(及其家族)。

圖1.3 華人財富來源圖
(引自財新網“數字說”欄目)
圖1.3左側圖片的制作者考慮了5種不同的財富積累途徑,并使用環形圖作為信息載體。創業和繼承是兩種截然不同的財富積累途徑,左側圖片按照財富積累途徑的不同性質遞進地進行羅列。從“完全靠財富繼承”開始,按逆時針方向旋轉,財富積累途徑中的繼承成分逐漸減少,創業成分逐漸增多,直到“完全白手起家”為止,構成了一個完整的圓。與直接按照比重大小羅列相比,這種排列方法能夠更加突出華人富豪財富積累途徑中,創業所占的絕對優勢地位。
圖1.3右側則是一張簡單的條形圖,它遞減地羅列了9類華人富豪較為集中的行業。顯然,房地產行業以27%的比例獨占鰲頭,是排名第二的金融、投資行業所占的13%的兩倍還多。另外,互聯網業也有不俗的表現,作為一個新興行業,互聯網業不僅能夠造出富豪,同時也吸引了眾多富豪的投資。將這9類行業的比重相加僅為74%,顯然,這是由于還有26%的富豪分散在其他行業中。
圖1.4同樣引自“數字說”的一條數據新聞,這條新聞統計了網上發布的100名外逃貪官的男女比例、年齡分布和職級等信息,圖1.4是匯總這些數據后畫出的餅圖。觀察這些圖片,容易發現外逃貪官中男性要遠多于女性;39歲以下和70歲以上的外逃貪官很少,40~69歲是外逃貪官的主要年齡段,其中又以50~59歲的外逃貪官最多;職級為一把手的外逃貪官也占了將近一半的比重。

圖1.4 百名外逃貪官數據概覽圖
(引自財新網“數字說”欄目)
與圖1.3中的環形圖相比,圖1.4的文字注釋非常少,圖片吸引了讀者絕大部分注意力。這種做法能夠加強數據的對比效果,凸顯出外逃貪官中男性、一把手的比例之高。但是,由于我們通常更多地注意扇形的弧長而非扇形的面積,因此餅圖會削弱相似大小的扇形之間的細微差距,故而餅圖只適合表現對比強烈、分類較少的數據。
一則數據新聞想要成功就需要大量翔實可靠的數據及精美的數據可視化手段。成功的數據可視化并不是多么繁復、令人眼花繚亂的圖形,而是能夠突出重點信息的圖形。只要運用恰當,最簡潔的圖形反而是最有力度的圖形,這些要點不僅在制作數據新聞時很重要,數據分析師在制作數據報告時也同樣應遵守。
1.3.3 數據可視化小結
數據可視化是一個十分龐大的命題,與數據可視化相關的專業軟件有許多,也有許多書籍專門講述如何做好數據可視化。英國《衛報》的傷亡地圖是數據新聞史上的經典之作,“數據說”欄目則是數據圖表新聞的新興代表,本節通過案例解讀了散點圖、條形圖、餅圖等基本圖形的用法。在數據可視化中,最基本的圖形有6種:條形圖、折線圖、散點圖、氣泡圖、餅圖和雷達圖。
條形圖的用途最廣泛,它是最為簡潔明了的基本圖形。條形圖用于二維數據之間的對比,利用條形的長短對比不同數據的差異。對于所有的中小規模數據集,條形圖都工作得非常好;折線圖同樣用于對比二維數據,與條形圖不同,它展示的重點不是不同數據的差異,而是數據整體的趨勢走向,因此在所有涉及時間的數據都會運用折線圖,對于金融數據來說,尤其是這樣。
散點圖既可以用于對比二維數據,也可以用于對比三維數據。散點圖注重多個維度之間的比較,如果拿不準數據集是否適合做回歸分析,散點圖可以幫助數據分析師看清數據的分布趨勢。在聚類分析中,散點圖同樣能夠幫助數據分析師直觀了解不同類別的差別;氣泡圖是散點圖的升級版,它不但能夠在三維空間里體現出數據的分布,還可以通過氣泡的大小體現不同數據的重要度。例如,在詞頻分析中,一個單詞出現的次數越多,這個單詞就越大,這就是一種氣泡圖的經典變形。
餅圖不是一種好操縱的圖形,餅圖最明顯的兩個局限在于它不能同時展示過多的數據類,也容易縮小不同類別的差距。使用餅圖時的通常做法是將一個整圓切割為幾個扇形,每個扇形代表一類數據,通過對不同扇形面積的比較來判斷不同數據的差異。與條形圖不同,人類很難區分出餅圖中的細微差異,因此將一個餅圖劃分為過多的小扇形是沒有意義的,同一個餅圖中最多不要超過5個扇形。
雷達圖也稱蜘蛛圖,它可以同時比較5維左右的數據,但不能超過6維。此外,雷達圖也不能比較太多的數據。這種局限性使得雷達圖的用處十分有限,但對于適合使用雷達圖展示的數據來說,雷達圖能最大限度地展示數據信息。
盡管基本圖形只有6種,但這6種圖形可以延伸出更多的圖形,如條形圖就可以延伸出復式條形圖、堆棧條形圖等,折線圖可以延伸出曲線圖等。此外,圖形的顏色對比、圖形線條的粗細、數據標識的擺放等細節同樣決定了一幅圖形的成功與否,在保證了數據翔實的同時,做好圖形的細節是數據可視化成功的重要因素。