2.1 奧巴馬的競選大數據
2008年11月5日,代表民主黨的巴拉克·奧巴馬當選美國第44任(第56屆)總統。2011年4月4日,奧巴馬宣布競選2012年美國總統(見圖2-1)。2012年11月6日晚(當地時間),奧巴馬在美國大選中以332(選舉人)票對206票,擊敗共和黨的米特·羅姆尼,連任美國總統。在這樣一場勢均力敵的政治角力中,雙方陣營在人力、財力和物力上的投入可以說是在伯仲之間,究竟是什么原因導致了曾在民意調查和電視辯論中一度處于弱勢的奧巴馬咸魚翻身呢?是什么幫助奧巴馬的競選團隊在最短的時間內籌措到10億美元的競選資金呢?又是什么力量幫助奧巴馬的智囊團隊成功預測到哪些搖擺州會左右選情呢?塵埃落定后,眾人才恍然大悟——是“數據”。
選戰之初最為關鍵的是籌集資金。奧巴馬的數據科學團隊做的第一件事就是搭建了一套統一的數據平臺,將先前散布在各個數據庫內關于民調專家、選民、籌款人、選戰員工和媒體人的數據聚合在一起。搭建數據平臺并完成數據整合在事后被證明是奧巴馬數據科學團隊走的最為關鍵的一步棋。數據整合從根本上解決了一直以來令競選團隊頭疼的數據一致性問題,各個團隊可以同步共享統一的人員名單并保持實時更新,確保了每個團隊能最有效率地開展各自的工作,并兼顧或借鑒其他團隊的工作成果。比方說,負責資金籌集的部門在給目標客戶打電話前,已經收到一份由動員投票團隊提供的詳盡名單,上面不僅列出對方的名字與電話號碼,還有他們可能被說服的內容,并按照競選團隊最重要的優先訴求來排序。決定排序的因素中有3/4是基本信息,比如年齡、性別、種族、鄰居及投票記錄,這使得整個募集資金團隊的工作效率大大提高。
圖2-1 奧巴馬參加選舉
數據整合之后就是建模。伴隨著反饋數據的收集,數據科學團隊馬上著手利用已有數據對未來數據構建統計和推薦模型。借此,競選團隊能夠搭建基于聚類的決策樹,來判斷哪些人會采取怎樣的捐贈方式;也能針對歷史數據發現那些流失掉的捐款者的流失原因是什么,進而有的放矢地重新吸納那些人,甚至挖掘出一些特定人群的捐贈習慣。例如他們發現在網上或者通過短信重復捐錢,而無須重新輸入信用卡信息的人,捐出的資金是其他捐獻者的4倍。
選戰之首是要對選情了如指掌。傳統的做法是選前各種五花八門的民調,但這也是傳統數據統計方法的局限所在,它只能告知現象,卻不能告知原因。奧巴馬的數據科學團隊從多個角度去尋求突破。首先,他們擴大了調查樣本,以俄亥俄州為例,數據分析團隊做了29000人的民調,相當于該州全部選民的0.5%。同時,他們動用多組而不是一組民調數據來勾畫更完整的數據圖譜。更關鍵的是,數據科學團隊用計算機對采集來的民調數據進行模擬競選,有時候一個晚上要運算66000次來模擬各種情況下的選情結果。競選團隊在每天早上第一時間都能得到這樣一份報告,提供指導性的意見,從而應對變化,并調配資源。正是通過構建這樣的預測模型,競選團隊成功判斷出大部分俄亥俄州人不是奧巴馬的支持者,反而更像是羅姆尼因為9月份的失誤而丟掉的支持者。
奧巴馬的大數據團隊證明了擁有海量數據和相應的處理數據的能力,的確是瞬息萬變的政治角力中不可或缺的一支力量。
- 計算機控制技術
- Matplotlib 3.0 Cookbook
- MicroPython Projects
- 21天學通Java
- 計算機系統結構
- Statistics for Data Science
- Hands-On Reactive Programming with Reactor
- Mastering Ansible(Second Edition)
- FANUC工業機器人虛擬仿真教程
- Office 2010輕松入門
- Hands-On Artificial Intelligence for Beginners
- 巧學活用電腦維護108問
- 博弈論與無線傳感器網絡安全
- R Data Visualization Recipes
- Learning PostgreSQL 10(Second Edition)