- 大數據云圖:如何在大數據時代尋找下一個大機遇
- (美)大衛·芬雷布
- 4939字
- 2019-01-01 00:13:21
Facebook,圖片和分享的力量
2012年11月22日,圖片分享應用Instagram的用戶分享了很多照片。這是Instagram史上最忙的一天,該應用程序的用戶當天分享的照片量是前一天的兩倍,那是因為11月22日這天恰好是感恩節。Instagram的用戶下載了大概1000萬張圖片,這些圖片上都寫著以感恩為主題的祝福。說得委婉些,很多是關于火雞圖案的圖片,當然也有愛人的照片。目前,每個月大約有9000萬人都在使用這項服務。
2012年年初,Facebook以10億美元收購了Instagram。Facebook在圖片分享方面并不輸給Instagram。Facebook的用戶在2011年年末,每天的圖片平均下載量達到了2.5億張,每月大概達到了75億張。
當然,我們喜歡照片還有另一個原因,那就是現在拍照很容易。就在幾年前,我們還需要考慮該拍攝什么,不該拍攝什么——而現在影像隨處可見。在以前,如果我們的膠卷快用完了,還得省著最后一點下一次用。但現在,數碼相機、智能手機和便宜的存儲設備使我們可以拍攝多得數不清的數碼照片。現在,幾乎每部智能手機都有內置攝像頭。這就意味著,我們不但可以隨意拍照,還可以輕松地上傳或分享這些照片。這種輕松、自在的拍攝和分享圖片的過程充滿了樂趣和價值。因此,當我們遇到有趣的信息圖時,很自然地想分享它們。
和照片一樣,如今制作信息圖也要比以前容易得多。公司制作這類信息圖的動機也多了。2011年2月,搜索引擎巨頭谷歌公司改變其算法來獎勵高質量的網頁,尤其是“具有諸如調查、深度報道、有思想深度的分析等這類原創內容和信息的網站”。結果,公司的營銷人員發現,要想讓公司的網站在谷歌搜索排名中靠前,他們就得更加努力。
但一個擁有有限信息資源的營銷人員該做些什么來讓搜索更加吸引人呢?答案是制作一張信息圖。信息圖可以吸納廣泛的數據資源,使這些數據相互吻合,然后編造一個引人入勝的故事——涉及網頁瀏覽器的時候,就講關于瀏覽器戰爭的故事;涉及集體融資的時候,就講提供就業機會的故事。博主和記者們想方設法地在自己的文章中加進類似的圖片,因為讀者喜歡看圖片,同時也樂于分享這些圖片。
最有效的信息圖還是被不斷重復分享的圖片。其中有一些圖片在網上瘋傳,它們在社交網站如Twitter、Facebook、LinkedIn以及我們傳統但實用的郵件里,被分享了數千次甚至上百萬次。
由于信息圖制作需求的增加,幫助制作這類圖形的公司和服務也隨之增多。2011年成立的信息圖制作工具Visual.ly在其網站上展示了超過25000張信息圖。未來Visual.ly的商務模式還會擴大,從網站上能明顯看出,人們對使用視覺信息傳達知識有著巨大的需求。其他公司,例如QlikTech公司和它推出的QlikView產品、Tableau Software公司和Spotfire公司提供的TIBCO產品有助于人們在做報告、分析和市場營銷時創建引人入勝的可視化效果。2010年,谷歌推出了“谷歌公共數據瀏覽器”(Google Public Data Explorer),使得人們能在線瀏覽公共數據。
公共數據集
使用可視化工具的企業客戶在提到可視化時通常會想到儀表盤(dashboard)的生成。儀表盤將有關銷售、市場營銷和供應鏈的數據轉換成管理人員易于查看的含義豐富的圖表。
現在,可視化的作用得到進一步的延伸。公共數據集是指可以公開獲取的政府或政府相關部門經常搜集的數據。人口普查是收集數據的一種形式,1790年美國人口普查局首次進行了美國人口普查。這次人口普查使美國政府獲取了大量與美國人口相關的信息,其中包括人口的組成及其地理分布。
正如數據故事家漢斯·羅斯林(Hans Rosling)所闡釋的,這些數據對于人們了解人口變化、國家興衰以及戰勝嬰兒死亡率與其他流行病的進程尤為重要。羅斯林像足球解說員回放比賽錄像一樣,用數據可視化(尤其是公共數據)來述說與數據相關的事實。羅斯林賦予了數據生命力。但他并不是將數據像動畫片一樣播放出來,而是將數據繪制成圖表,然后進行演示。例如,數據走勢是怎樣隨著時間的變化而變化的,或是不同國家的相對人口或收入在四五十年里是怎樣演變的。這種動畫效果使數據具有了生命力,羅斯林和他的兒子、兒媳婦所開發的軟件成了谷歌公共數據瀏覽器的基礎。
一直以來,很多著名的可視化信息中所使用的公共數據都是通過新穎、吸引人的方式來呈現的。Visual.ly在其網站刊有一篇名為《12張定格歷史的偉大可視化圖片》的文章里,展示了一些類似的圖片。其中的一些可視化圖片表明,恰當的圖片可以非常有效地傳達信息。例如約翰·斯諾(John Snow)關于1854年倫敦爆發霍亂的圖片,形象地解釋了被污染的井水是霍亂傳播的罪魁禍首。
大約在同一時間,現代護理教育的奠基人弗洛倫斯·南丁格爾(Florence Nightingale)制作了另一張拯救了眾多生命的著名圖表。南丁格爾用鋸齒圖將復雜的統計信息形象、生動地展示給了眾多觀眾。更重要的是,南丁格爾的圖表表明英國軍隊中的很多疾病是可以避免的:士兵們死亡的原因多數是由于非作戰因素造成的,因此,她成功地說服了政府使用衛生設施來降低死亡率。
實時可視化
很多信息圖提供的信息從本質上看是靜態的,即使是羅斯林制作的吸引人的動態圖,其本質也是由靜止的歷史數據構成的。
通常來說,制作信息圖需要花費很長的時間和精力:它需要數據,需要展示有趣的故事,還需要以圖標將數據以一種吸引人的方式呈現出來。但是工作到這里還沒結束。圖表只有經過發布、加工、分享和查看之后才具有真正的價值。當然,到那時,數據已經成了幾周或幾個月前的舊數據了。那么,在展示可視化數據時要怎樣在吸引人的同時又保證其時效性呢?數據要具有實時性價值,必須滿足以下三個條件:
●數據本身必須要有價值;
●必須有足夠的存儲空間和計算機處理能力來存儲和分析數據;
●必須要有一種巧妙的方法及時將數據可視化,而不用花費幾天或幾周的時間。
想了解數百萬人是如何看待實時性事件,并將他們的想法以可視化的形式展示出來的想法看似遙不可及,但其實很容易達成。我們只要看看2012年的美國總統選舉就知道原因了。
在過去的幾十年,投票需要民意測試者打電話或親自詢問每個選民的意見。通過將少數選民的投票和統計抽樣方法結合起來,民意測試者就能預測選舉的結果,并總結出人們對重要政治事件的看法。
尼爾森(Nielsen)使用同樣的統計法來調查電視收視率,康姆斯克(Comscore)則用這個方法來調查網絡市場。尼爾森最初進行媒體調查時,使用了一種設備來調查1000個人收聽的是什么電臺。隨后,公司將類似的方法運用于電視節目,“尼爾森收視率”(Nielsen ratings)從此廣為人知。這種調查方法至今仍被廣泛沿用,但在其他領域,大數據正改變著我們的調查方法。要說最近幾年,有哪家公司對我們調查公眾意見產生了更大的影響,那就是Twitter——它有一個叫作“情感分析”(Sentiment analysis)的工具。
事實上,Twitter可能是擁有大數據資源的公司中最被低估的公司之一。2012年10月,Twitter的用戶每天在網絡上發送的推文大約有5億條,對于人工生成的信息來說,這是一個相當可觀的數字。Twitter成立于2006年,最初還完全沒有發送推文的功能。通過分析推文中使用的詞語,計算機程序不僅可以發現流行的話題,即受到更多關注的話題,還可以得出人們感覺如何、持什么觀點的結論。
捕捉和存儲數據只是像Twitter這樣的公司所面臨的大數據挑戰中的一部分。為了分析這些數據,公司開發了Twitter數據流(tweet stream),即支持每秒發送5000條或更多推文的功能。在特殊時期,如總統選舉辯論期間,用戶發送的推文更多,大約每秒2萬條。然后公司又要分析這些推文所使用的語言,找出通用詞匯,最后將所有的數據以可視化的形式呈現出來。
要處理數量龐大且具有時效性的數據很困難,但并不是不可能。Twitter為大家熟知的數據流入口(firehose access)配備了編程接口。像Twitter一樣,Gnip公司也開始提供類似的渠道。其他公司如BrightContext,提供實時情感分析工具。在2012年總統選舉辯論期間,《華盛頓郵報》在觀眾觀看辯論的時候使用BrightContext的實時情感模式來調查和繪制情感圖表。實時調查公司Topsy將大約2000億條推文編入了索引,為Twitter的政治索引提供了被稱為“Twindex”的技術支持。Vizzuality公司專門繪制地理空間數據,并為《華爾街日報》選舉圖提供技術支持。
與電話投票耗時長且每場面談通常要花費大約20美元相比,上述公司所采用的實時調查只需花費幾個計算周期,并且沒有規模限制。另外,它還可以將收集到的數據及時進行可視化處理。
但信息實時可視化并不只是在網上不停地展示實時信息而已。“谷歌眼鏡”(Google Glass)被《時代周刊》稱為2012年最好的發明。“它被制成一副眼鏡的形狀,增強了現實感,使之成為我們日常生活的一部分。”將來,我們不僅可以在計算機和手機上看可視化呈現的數據,還能邊四處走動邊設想或理解這個物質世界。這聽起來像是科幻小說中才有的情節,但其實不然。現在,購買一副谷歌眼鏡需要花費高達1500美元的費用,但就像其他新科技一樣,谷歌眼鏡也會隨著時間的流逝變得更小、更便宜。
圖像的多變性,計算機在識別中遇到麻煩
諷刺的是,雖然計算機在處理大量文本信息的時候無人能敵,但在分析可視化信息時卻顯得尤為吃力。回想一下上一次的情景。你照了幾百張照片,想找一個網站或軟件能幫你自動刪除照得不好的照片,并將相關的照片歸類分組;或能自動辨認照片中的人物并和這些人分享這些照片。從更大范圍上來說,你希望像Facebook這樣的公司可以將不好的照片過濾出來,而亞馬遜可以判斷書本中的文字描述與對應的圖片是否相符。盡管如今與圖片識別和圖片描述有關的科技發展得如此迅速,而且這些問題看上去計算機很容易就能解決,要大量進行這種分析仍然頗具挑戰。
麻省理工學院和哈佛大學的科學家們,在他們所著的一篇《為什么現實生活中識別可視物體這么困難?》(Why Is Real-World Visual Object Recognition Hard?)的論文中說道:“我們可以輕松識別可視物體,這種輕松正是計算機識別的難處。主要挑戰就是圖像的多變性——例如物體的位置、大小、方位、姿勢、亮度等,任何一個物體都可以在視網膜上投射下無數個不同的圖像。”簡單說來,圖像變化多端,因此很難分辨不同的圖片是否包含了相同的人或物。而且,圖案識別也更加困難;盡管要在一個句子中找出“總統”這個單詞很容易,在上百萬個句子中找出它來也相對簡單,但要在圖片中找出擁有“總統”這個頭銜的人卻困難重重。
讓某個人描述一張圖片的特征很容易,但要描述上百萬張圖片該怎么辦呢?為了解決圖片特征問題,像亞馬遜和Facebook這樣的公司開始向眾包市場,如oDesk平臺和亞馬遜土耳其機器人(Amazon Mechanical Turk)尋求幫助。在這些市場中,滿足特定條件的版主在通過了某項測試之后便有權使用圖片,并對這些圖片進行描繪和過濾。如今的計算機比較擅長幫我們制作可視化效果。而在將來,隨著像谷歌眼鏡這樣的產品不斷演變,它們能更好地幫我們理解實時的可視化信息。
打造最好的可視化效果
要說有哪個行業能更好地理解信息可視化的重要性,那一定是廣告行業了。廣告行業是為數不多的利用大數據新科技的先鋒行業之一。如果對于“圖片是一種強大的交流方式”還有任何疑問的話,那么我們只需看看美國公司每年在電視廣告上高達700億美元的花費就知道答案了。正如市場調研公司明略行(Millward Brown)的全球首席分析師奈杰爾·霍利斯(Nigel Hollis)指出的那樣,如果不起作用,公司是不會在電視廣告上花費那么多錢的。
霍利斯認為,人們對電視廣告的影響感到迷惑是因為他們認為廣告商想要他們看了廣告馬上采取行動,而他們并不會這么做。這也正是他們的錯誤認識所在。品牌廣告的成功并不是呼喚人們立即行動或爭論,而是要給人們留下積極的印象來影響人們。霍利斯解釋說:“最好的廣告是使用圖片、朗朗上口的廣告詞和故事情節將人們的注意力吸引到產品的品牌上面。尤其是將注意力放在那些動人的、容易記住的廣告短片的理念上,那些廣告沖破了我們的心理防線,播下了影響我們行為的記憶種子。”
事實上,一些廣告商還在傳送可視化圖像時采用了更加先進的方法。他們通過一種叫作“神經營銷學”(neuromarketing)的科學方法來判斷哪種可視化效果最好。神經營銷學使用“功能磁共振成像”(fMRI)和其他科技來觀察在面對各種各樣廣告方式的時候,大腦的哪個部分會興奮起來。營銷人員甚至能通過場景模擬來確定廣告放在哪里會產生最好的效果,例如將廣告放在廣告牌上還是公交車的車身上。
因此,可視化不僅是一種傳遞大量信息的有效途徑,它還和大腦直接聯系在一起,并能觸動情感,引起化學反應。可視化可能是傳遞數據信息最有效的方法之一。研究表明,不僅可視化本身很重要,何時、何地、以何種形式呈現對可視化來說也至關重要。
通過設置正確的場景,選擇恰當的顏色甚至選擇一天中合適的時間,可視化可以更有效地傳達隱藏在大量數據中的真知灼見。著名的媒介理論家馬歇爾·麥克盧漢(Marshall McLuhan)曾經說過:“媒介即信息。”現在,科學證據證明了在傳遞信息時環境和傳輸的重要性。