- 因果推斷:基于圖模型分析
- 羅銳編著
- 654字
- 2023-08-28 19:18:53
第1章 緒論
近年來,大數據(big data)一詞越來越多地被提及,人們經常用它來描述信息爆炸時代所產生的海量數據,也用它來定義與之相關的一系列數據建模、分析技術的發展與創新。《紐約時報》2012年2月的一篇專欄文章認為,大數據時代已經來臨,在商業、經濟及其他諸多領域中,決策將日益基于數據和分析而做出,而并非基于經驗和直覺。越來越多的政府、企業等機構也意識到大數據分析能力正在成為組織的核心競爭力。事實上,大數據分析的應用在我們的生活中隨處可見,例如,當你把微博等社交平臺當作日記或者發表議論的工具時,金融界的高手們卻正在挖掘這些互聯網應用的“數據財富”,先人一步用其預判市場走勢,取得了不錯的收益。大數據分析在各行各業得到了廣泛的應用,包括:
● 基金公司基于大數據分析投資者的情緒,擬定股票交易策略;
● 電商公司根據客戶網頁瀏覽行為大數據的分析結果進行商品推薦;
● 投資機構爬取購物網站的顧客評論文本,進而分析、推斷企業的產品銷售和財務狀況;
● 風險投資基金采集求職網站的崗位數據,從而推斷各個細分領域的行業發展趨勢;
● 投資銀行搜集上市公司的網絡信息和公開披露信息,從中尋找企業經營的蛛絲馬跡,實現風險控制;
● 疾病預防和控制中心基于網民搜索數據,分析全球范圍內流感等病疫的傳播狀況。
在輝煌的大數據熱潮中,有大數據分析從業者驕傲地聲稱:“我們不再熱衷于找因果關系,尋找因果關系是人類長久以來的習慣,但在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系。”這樣的看法真的對嗎?我們來看幾個辛普森悖論的有趣例子。