官术网_书友最值得收藏!

第三節 大數據的理論傳統

雖然對大數據尚未有公認的定義,但并不意味著大家對這個概念沒有較為普遍的共識,從以上定義來看,我們可以認為大數據是伴隨數據信息的存儲、分析等技術進步,而被人們所收集、利用的超出以往數據體量、類型,具有更高價值的數據集合、信息資產。隨著信息的發展,人們對大數據研究分析,從中提取出極具價值的信息,無論是對商業的發展還是對社會的進步都具有跨時代的意義,這也是促進國家和社會推動大數據分析的核心動力。筆者認為,從大數據分析研究的理論起源看,主要包含統計學傳統、數據挖掘傳統和數據可視化傳統三大傳統。

圖1-2 大數據的三個理論傳統

一 統計學傳統

經濟社會研究中的統計學傳統起步很早。早在1690年代,經濟學家威廉·配第在其代表作《政治算術》中就提出運用統計方法來度量經濟社會現象的思路。他指出:“我所采取的方法尚不常見。與只是用比較級和最高級的詞語,以及單純做思維的論證相反,我采用了這樣的方法……用數字、重量或者尺度的詞匯來表達我自己的想法;只利用能訴諸人們感官的論點,只考察在本質上具有明顯基礎的原因?!?a id="w021">[21]他是最早設法度量一國的人口、國民收入、出口、進口、資本量的經濟學家,盡管其所用的方法今天來看十分簡單,但這種開創性見解是經濟學現代思想的基石[22]

統計學研究的基礎就是樣本數據,因此統計學的基本思想自然而然成為大數據分析思想的重要起源。但在大數據技術出現之前,統計學在研究復雜的經濟社會問題時,不可避免地面臨大量問題,包括統計時滯性、樣本誤差、數據獲取成本過高等。

哈耶克曾十分深刻地指出了統計學方法在分析復雜問題時的根本性瓶頸。他指出:“從本質上說,統計學是通過消除復雜性來處理大量數據的,它有意識地把它所計算的每個要素,看成它們之間仿佛沒有系統地相互聯系在一起。它通過用出現率信息取代有關個別要素的信息,避開復雜性問題,它故意不考慮一個結構中不同要素的相對位置也會有一定作用這個事實。換言之,它的工作假設是,只要掌握了一個集(Collective)中不同要素的出現率,就足以解釋這種現象,因此有關這些要素相互聯系的方式的信息是沒有必要的。只有當我們故意忽略,或者并不知道有著不同屬性的每個要素之間的關系時,也就是說,當不考慮或不了解它們所形成的任何結構時,統計學方法才是有用的?!币虼?,“當我們所擁有的是人口中各種因素的信息時,統計學能夠成功地應付這種復雜的結構,然而它卻不能告訴我們這些因素的結構。用時髦的話說,統計學把它們看作‘黑箱’,認為它們類型相同,但是對它們的統一特征不做任何說明。大概誰也不會嚴肅地主張,統計學能夠解釋即使是相對而言不十分復雜的有機分子結構,也沒有誰會認為,它能幫助我們解釋有機體的功能。但是在說明社會結構的功能時,人們卻廣泛地持有這種信念”。[23]

很多學者指出,大數據方法相比統計學方法的根本性進步是其使經濟社會研究從樣本統計時代走向總體普查時代[24]。因為宏觀經濟系統紛繁復雜,如果能將對整體宏觀經濟變量的分析建立在盡可能多的關于經濟主體行為的數據信息以及其他諸多經濟變量的信息基礎上,甚至拋棄原有的假設檢驗的模式,無疑將會極大地提高宏觀經濟分析的準確性和可信度,甚至從根本上解決哈耶克所指出的難題。

盡管如此,不可否認的是,大數據分析中的很多思想直接起源于統計學領域。在此,筆者試舉兩個小案例作為佐證。

第一個案例,統計分析中的比對和發現異常思維。林彪元帥是一位十分注重運用數據分析剝繭抽絲進而精準把握戰場中各類情報的軍事家。遼沈戰役胡家窩棚戰斗期間,林彪通過第3縱隊7師21團3營報送情報得知,在胡家窩棚國民黨軍佩戴短槍的比拿長槍的多、小汽車多、電話線多、瓦房上天線林立,因此斷定此處必有“大魚”,果斷下令出擊攻入廖耀湘兵團指揮機關,讓整個敵軍因失去指揮而方寸大亂。這場看似偶然的行動,使我軍終于精確判明了廖耀湘的位置,讓后續全面圍殲的計劃撥云見日。這個故事中,林彪使用的數據量可能并不“大”,但通過發現這一異常點,其所創造的價值卻非?!按蟆保虼丝梢哉f也是大數據分析思想的一種體現。這也告訴我們,大數據分析與傳統意義上的統計分析不同,很多時候并不是為了驗證人們提出的某一假設,而恰恰是要尋找和人們預期的“不一致性”趨勢,比如發現一些孤立點、異常點、突變點等。

第二個案例,來自著名數理經濟學家、數理方法與效用理論的先驅者之一威廉·斯坦利·杰文斯。杰文斯對挖掘導致價格波動的貿易或經濟周期原因感興趣。因為循環行為看上去并不與個人效用最大化行為相關,所以,他認為自然界中一定存在某種原因——一些引起波動的自然現象。初步的研究使他認為,經濟活動波動的原因很有可能是與天氣有關的某種東西。他把注意力集中在太陽黑子(太陽活動的周期性波動)上,將其視為可能的原因。杰文斯的具體假設是,太陽黑子循環以11.1年為一個周期而發生,這些循環導致了天氣的循環,從而導致經濟周期。為了驗證他的理論,杰文斯著眼于13世紀和14世紀以來可供使用的有關收成波動的農業數據。其后,他試圖將這些收成波動與19世紀對太陽黑子活動的估計,即11.1年一個周期的估計相連。他假設日斑循環的長度不變,通過在代表11年的一個網格上展示數據,并目測數據,對兩者進行比較。他注意到一種相對來說較好的“適合”,循環看上去匹配。然后,他考察19世紀期間商業信用的周期,并發現平均周期是10.8年。他斷定,經濟周期的可能原因是太陽黑子[25]。這個案例所基于的數據量同樣很小,但其體現了現代大數據分析方法中時序預測這一重要應用方向。針對這一問題,在后文中還將展開論述,此處不再贅述。

二 數據挖掘傳統

數據挖掘研究是大數據分析最直接的理論前身。1995年,費亞德(U.M.Fayyad)在國際數據挖掘領域的頂級峰會——知識發現會議(KDD)上首次提出了大數據的概念[26],并將其基本目標概括為兩個方面:描述(Descriptive)與預測(Predictive),前者的目的是刻畫海量數據中潛在的模式,后者則是根據數據中潛在的模式來進行預測,進而發現數據中有價值的模型和規律。

第一種模式下,針對海量數據背后所隱藏各種關聯模式開展挖掘,是大數據研究最重要的應用方向之一。維克托·邁爾-舍恩伯格、肯尼思·庫克耶認為,由于大數據突破了傳統樣本采集方式的數據規模局限,而得以在很大程度上采用全樣本海量數據開展分析,因此其可以大量使用相關性挖掘的方法,發現隱藏在海量數據背后的線索性信息,從而揭示樣本數據無法涵蓋的各種細節信息[27]。換言之,大數據分析不關心因果邏輯,而只是通過對海量數據背后關系的分析挖掘,找到對人們生產生活具有指導意義的關聯關系。一個典型的案例就是“啤酒+尿布”的故事。國外超市通過分析顧客的購買記錄,發現很多人在購買啤酒的同時也會采購尿布,因此在貨架擺放時將這兩類商品放在一起,就能有效提高銷量。通過大數據分析,我們可以發現“啤酒”和“尿布”的關聯關系幫助超市增加銷量,但并不關心這種關聯關系背后的原因。當然,針對這一問題,也有學者認為,目前基于大數據的分析主要是尋找變量間的相關性,而不是因果關系,基于大數據的經濟社會解釋能力有待進步,反映出其某些理論基礎尚未完全夯實[28]。

第二種模式的核心則是預測模式的革命性變革。如前所述,在統計學方法中,基于有限統計樣本數據的預測方法同樣十分流行,其主要可以分為基于理論驅動的結構模型和基于數據驅動的時序模型兩大類[29]。前者是以宏觀經濟理論為基礎,構建數理分析模型,然后“統計化”,形成經濟計量模型,利用統計數據進行參數估計,并以此分析宏觀經濟變量之間的數量關系以及對關注變量進行預測。后者則不依賴任何經濟理論,純粹依靠數據的內在規律進行建模,其不強調內在的經濟理論邏輯,更多地關注變量本身的變化特征和在時間維度上的延續性,并利用這種數據內在的變化模式預測未來。

但總體而言,這兩種模式基本的邏輯是通過歷史數據發現經濟運行的基本規律,通過歷史數據中發現的規律來預測未來經濟情況,因此其嚴重依賴經濟系統規律的延續性,在面對重大外部性風險(如金融危機)或結構性變化(如科技革命)時,其預測效果會大打折扣——這也是上文提到的哈耶克批判的根本性原因。在大數據時代,由于人們可以突破樣本采集方法的局限,從而實現對全樣本、全天候、全場景、全方位數據的采集,其對于經濟社會運行主體的預測能力會有巨大提升。著名大數據科學家巴拉巴西甚至樂觀地指出:“如果你知道一個人過去的所有社會數據,那么你對他未來行為的預測的準確性將達到93%?!?a id="w030">[30]有學者認為,隨著大數據廣泛獲取經濟社會主體各類行為數據能力的日益提升,將為測量經濟社會主體預期和量化主體情緒提供新的路徑,有望漸進打開經濟主體預期形成過程的“黑箱”[31],大大提高預測分析能力。

三 數據可視化傳統

在計算機學科分類中,利用人眼的感知能力對數據進行交互的可視表達以增強認知的技術,稱為可視化。1967年,法國人Jacques Bertin出版了《圖形符號學》(Semiology of Graphics )一書,確定了構成圖形的基本要素,并且描述了一種關于圖形設計的框架,被視為數據可視化的重要理論基石。

數據可視化出現的根本原因,是人類分析數據(通過視覺、聽覺等感官)的能力受限于生物學進化過程而相比前現代化時代幾乎沒有任何提升;而與之相對,近代以來人類在采集、獲取、傳輸數據方面的能力因為信息技術的發展而出現了巨大進步,從而導致人類數據分析能力遠遠落后于數據獲取能力,也就是所謂“數據大爆炸”。這個挑戰不僅在于數據量越來越大、高維、多元源、多態,更重要的是數據獲取的動態性、數據內容的噪聲和互相矛盾、數據關系的異構與異質性等。相比而言,人眼是一個高帶寬的巨量視覺信號輸入并行處理器,對可視符號的感知速度比對數字或文本快多個數量級。大腦對于視覺信息的記憶效果和記憶速度好于對語言的記憶效果和記憶速度。因此,在數據分析中大量使用可視化技術,能夠提高人們信息認知的效率,幫助人們有意識地集中注意力,激發人們的智力和洞察力。

近年來,數據可視化技術已然成為大數據熱潮中的時髦概念,但很多人對于可視化的認知往往停留在酷炫、動感等淺層的視覺沖擊層面。而結合上文對數據可視化出現的根本原因分析,我們認為,這種認識是很不全面的,甚至是大大偏離了數據可視化出現的初衷。一個好的可視化案例,不一定要非常漂亮,但一定要能幫助人們快速實現從“讀數”向“讀圖”的認知躍遷,從而幫助人們改變思考問題的方式,提高決策效率。

依然舉一個小案例作為佐證:1854年倫敦爆發嚴重霍亂,10天內有500人死去,當時流行的觀點是霍亂是通過空氣傳播的。而流行病學家John Snow醫生則做了一個今天看來十分簡單的可視化分析,他在地圖上用記號標注了死亡案例,每死亡一人標注一條橫線,最終地圖“開口說話”,顯示大多數病例的住所都圍繞在Broad Street水泵附近,霍亂是通過飲用水傳播的,于是移掉了Broad Street水泵的把手,霍亂最終得到控制。這是一個非常典型的數據可視化案例,其直觀且有力地證實了霍亂的傳播與水井的關系,從而幫助人們迅速抓住數據背后的規律性問題。

圖1-3 John Snow繪制的倫敦某區域霍亂發生與水井的關系圖

主站蜘蛛池模板: 巴里| 景谷| 揭阳市| 襄垣县| 筠连县| 烟台市| 沽源县| 兴化市| 漾濞| 德庆县| 丰县| 紫金县| 杭州市| 大方县| 福鼎市| 台中县| 宽城| 外汇| 奈曼旗| 山西省| 双城市| 贵港市| 临澧县| 连江县| 清徐县| 黑水县| 余江县| 五河县| 萨嘎县| 颍上县| 东丽区| 夹江县| 灌云县| 壤塘县| 凤凰县| 枣阳市| 离岛区| 甘孜县| 双桥区| 如皋市| 和田县|