官术网_书友最值得收藏!

許琪.?大數據大在何處:數據量大的價值及分析策略[M/OL]//趙聯飛,趙鋒.社會研究方法評論:第1卷.重慶:重慶大學電子音像出版社.

大數據大在何處:數據量大的價值及分析策略

許琪[1]

摘??要本文從數據量大這一個角度分析了大數據相比抽樣調查的優勢以及研究者應該如何利用好這一優勢開展大數據研究。主要結論為:第一,大數據可以消除隨機性抽樣誤差,但由此帶來的估計精度上的提升并不大,而大數據在覆蓋偏差方面的缺陷使其在代表性上往往不如傳統抽樣調查;第二,大數據是一個非概率樣本,但因為其數據量極大,研究者可以通過非常精細的事后分層調整獲得對總體真值的有效估計;第三,利用數據量大的優勢,研究者可以使用大數據更好地研究稀有事件,分析總體異質性并發現細微差異所以數據量大的真正價值在于”,即研究者應當使用大數據開展更加精細化的研究

關鍵詞大數據抽樣誤差覆蓋偏差非概率樣本事后分層

Abstract:?This?study?analyzes?the?value?of?bigness?for?big?data?compared?to?traditional?survey?data?and?how?to?use?this?advantage?to?do?social?research.?The?main?conclusions?are?as?follows.?First,?big?data?can?eliminate?random?sampling?error,?but?the?resulting?improvement?in?estimation?accuracy?is?not?great,?and?the?shortcomings?of?big?data?in?coverage?bias?make?it?often?inferior?to?traditional?sampling?survey?in?representativeness.?Second,?big?data?is?a?non-probabilistic?sample.?However,?due?to?the?large?amount?of?data,?researchers?can?obtain?accurate?estimates?of?population?parameters?through?very?elaborate?post-stratification?adjustment.?Third,?with?the?advantage?of?large?amount?of?data,?researchers?can?use?big?data?to?better?study?rare?events,?analyze?overall?heterogeneity?and?find?subtle?differences.?Therefore,?the?real?value?of?bigness?for?big?data?lies?in?“fineness”,?that?is,?researchers?should?use?big?data?to?carry?out?more?elaborated?studies.

Keywords:?Big?Data;?Sampling?Error;?Coverage?Bias;?Non-probabilistic?Sample;?Post-stratification

一、引言

近年來,隨著移動互聯網、電子傳感器等電子信息技術和通信技術的迅猛發展以及計算機在存儲和分析大規模數據方面能力的增強,大數據正以一股不可逆轉之勢席卷商界、政界和學界。與商界和政界對大數據相對開放和包容的態度不同,學術界關于大數據的爭論始終不絕于耳。一些學者旗幟鮮明地指出,社會科學應當“擁抱大數據”(孫秀林、施潤華,2016),認為大數據為社會科學研究提供了新的數據來源、新的分析工具、新的理論化方向,甚至一種新的研究范式(劉林平等,2016;陳云松等,2016;羅瑋、羅教講,2015)。但與此同時,也有不少學者批評大數據(鮑雨,2016;趙超越,2019),認為大數據剪裁現實生活,忽視社會情境,抹煞主體建構,取消生活意義,以致從其誕生之初就帶有“原罪”(潘綏銘,2016)。本文無意對上述爭論進行評判,因為社會科學的研究方法本身就是多元的,任何一種方法都有其優勢,也有其缺陷,沒有一種能絕對壓倒另一種。長期以來,社會科學內部就有科學與人文之爭,現在則有定性與定量之爭、小數據與大數據之爭等,這種爭論永遠不會停止。與其進行無休止的爭論,不如充分認識并利用好每一種方法的優勢,使其更好地為社會科學研究服務。基于上述認識,本文旨在從“數據量大”這一個角度探討大數據的價值以及如何正確利用大數據的這一優勢開展社會科學研究。

當下關于大數據的研究普遍認為,數據量大是大數據的一個本質特征,也是大數據和抽樣調查數據在直觀上最明顯的區別。例如,維基百科就是根據數據的量級來定義大數據的,認為大數據是“數據量規模大到無法通過人工在合理時間內達到截取、管理、處理并整理成為人類所能解讀的信息”的數據(轉引自:張文宏,2018)。在一些關于大數據的著作中,學者們通常用3個、5個或7個以V開頭的英文單詞概括大數據的特點,但無論如何,數據量大(volume)始終是其中之一,且通常排在首位(Salganik,2018)。這種對數據量大的強調結合“大總比小好”的一般性認知使得社會各界都對大數據存在一種普遍樂觀的判斷,即大數據至少在數據量上擁有小數據無可比擬的優勢。但是,這種判斷卻很少經過充分的理論思考和實證檢驗。如果說數據量大是大數據的一種內在優勢,那么它體現在哪里?與傳統的抽樣調查相比這種優勢有多大?社會科學家該如何利用大數據的這一優勢開展社會科學研究?對這些問題,以往的研究不僅很少涉及,而且包含不少認識上的錯誤。本文將結合理論和案例論證數據量大對大數據的真正價值,反思一些研究對大數據的盲目崇拜,指出數據量急劇提升之后的研究進路和分析策略,從而為更好地開展大數據研究提供幫助。

二、大數據與抽樣誤差

如前所述,大數據的一個顯著特點就是“大”。而且,大數據的“大”不僅是就其數據量本身而言,更重要的是其所宣揚的“要總體而非樣本”的數據采集理念。正如維克托·邁爾-舍恩伯格和肯尼斯·庫克耶(2013)所指出的,大數據相對于抽樣調查數據的一個本質特征就是大數據“不是隨機樣本,而是全體數據”。換句話說,大數據的采集可以跳過抽樣環節,而直接面對總體本身。正因如此,很多大數據的使用者宣稱自己采集的數據沒有抽樣誤差。但事實果真如此嗎?要回答這個問題,就必須先弄清楚什么是抽樣誤差。

(一)大數據與隨機性抽樣誤差

抽樣誤差是抽樣調查領域的一個專業術語,它有廣義和狹義之分。狹義上的抽樣誤差特指在抽樣環節產生的隨機性誤差(Groves?et?al.,2009)。這種誤差是樣本的隨機波動導致的,只要采用抽樣,就必定會有隨機性抽樣誤差。而要徹底消除這種誤差,就必須進行普查。大數據的支持者認為,大數據是一個“全體數據”,也即普查數據。所以從這個角度來說,大數據確實沒有隨機性抽樣誤差。但是,這僅僅是基于抽樣理論的推演,在實踐層面,我們還需追問的一個問題是,大數據能將隨機性抽樣誤差降低多少?或者說,與通常使用的抽樣調查數據相比,大數據在降低隨機性抽樣誤差方面的優勢有多大?

要回答這個問題,我們首先看一下表1。這張表描述了在簡單隨機抽樣條件下在不同的置信水平和允許誤差范圍內所需的最小樣本量。從該表可以發現,如果置信水平為95%、允許誤差為3%,我們只需調查1067人就足夠了。這并不是一個很大的樣本,但是就一般的分析和預測來說已經足夠精確了。所以在一些抽樣調查專家眼中,抽樣是一個非常經濟且有效的方法,以至于基什早在20世紀60年代就建議美國政府,沒有必要再做十年一次的人口普查,而應改為更加頻繁的抽樣調查(Kish,1965)。因為在基什看來,一個設計良好的抽樣調查完全能夠勝任普查的基本功能,而且比普查便宜得多。

表1 簡單隨機抽樣條件下不同的置信水平和允許誤差范圍對應的最小樣本量

??資料來源:袁方、王漢生,1997,《社會研究方法教程》,北京:北京大學出版社。

抽樣調查真的能替代人口普查嗎?不熟悉抽樣調查的讀者可能會對此感到疑惑。但事實確實如此,我們可以通過北京大學社會科學調查研究中心執行的2010年“中國家庭追蹤調查”(CFPS)數據與第六次人口普查數據的對比來說明這一點。圖1的左半部分是根據2010年第六次人口普查數據繪制的中國人口的性別年齡金字塔,而右半部分則是根據2010年的CFPS數據繪制的性別年齡金字塔。從肉眼來看,二者幾乎沒有差別。但是,右圖是基于一個3萬余人的樣本得到的,而左圖基于的則是13億多人的人口普查。

通過上述分析可以發現,如果抽樣方法使用得當,一個中等規模的樣本完全可以滿足基本的分析需求,甚至不輸于普查。這是不是意味著大樣本就沒有用處呢?當然不是,從表1可以發現,樣本量越大,抽樣的隨機誤差就越小,同時我們進行統計推斷的把握性也越高,所以大樣本還是能提高抽樣精度的。不過,樣本容量增加所能帶來的抽樣精度的提高是邊際遞減的。從表1可以發現,同樣是95%的置信水平,允許誤差從3%降到2%只需額外調查1300多人,從2%降到1%就需額外調查7200多人,而要從1%降低到0就要進行普查。總而言之,大樣本雖好,但一味追求大樣本并沒有太大必要。特別是將調查成本與收益合在一起考慮以后,傳統的抽樣調查一般不會選擇太大的樣本。

圖1 2010年人口普查和CFPS2010的性別年齡金字塔

但是,大數據與傳統抽樣調查的一個重要區別在于,它的采集成本不會隨數據量的增加而急劇上升。這導致在很多情況下,大數據的使用者沒有必要在已獲取的全體數據中再抽一個樣本。但是,我們不該因此就對大數據在估計精度上抱有太高的期待,也不該因此對抽樣調查數據過分貶損。因為從前文的分析不難看出,大數據雖然可以消除隨機性抽樣誤差,但因此帶來的好處并不大。而且,一旦我們綜合考慮更加廣泛且隱蔽的抽樣偏差(sampling?bias),那么大數據在降低隨機性抽樣誤差方面的優勢可能根本不值一提。

(二)大數據中的覆蓋偏差

前文曾指出,狹義上的抽樣誤差特指隨機性抽樣誤差,但從廣義上講,抽樣誤差還包括非隨機性的抽樣偏差。這種偏差不是因為抽樣所致,所以也不會因為樣本量無限增大或采用普查而得以消除。因此,即便是以“全體數據”著稱的大數據也依然會存在抽樣偏差,特別是覆蓋偏差(coverage?bias)。

覆蓋偏差指的是調查總體與抽樣框不一致導致的偏差。在調查研究中,調查總體是研究者想要推論的目標總體,這個總體往往過于抽象,在實踐中必須先操作化為一份具體的名單,才能實施后續的抽樣。這份名單就是抽樣框。在理想情況下,抽樣框要與調查總體中的元素做到一一對應,不重不漏。但實際上,這種完美的抽樣框很難獲得,因此,幾乎所有抽樣調查都或多或少存在覆蓋偏差。以前文所說的CFPS為例,該調查的目標總體是2010年擁有中國國籍且居住在中國的公民。但因各種緣故,實際使用的抽樣框僅覆蓋了25個省、市和自治區的人口,覆蓋面約占調查總體的94.5%(謝宇、胡婧煒、張春泥,2014)。那些沒有被抽樣框覆蓋到的部分就有可能產生覆蓋偏差,只不過因為CFPS的抽樣框與調查總體很接近,這種偏差并不嚴重。但是,如果使用的抽樣框與調查總體差異很大,就有可能產生非常嚴重的覆蓋偏差。

1936年發生的“蘭頓總統”事件是說明覆蓋偏差的一個絕佳案例。雖然這個案例發生于80多年之前,但它對當下大熱的大數據依然有很多啟示。在1936年美國總統大選前夕,一個叫《文學文摘》的雜志想要通過民意調查來預測大選結果。為了達到這個目的,野心勃勃的《文學文摘》決心開展一次史上規模最大的民意調查——調查1000萬人(這在當時絕對可以稱得上大數據了)。調查結果顯示,蘭頓的支持率高達57%,而作為競爭對手的羅斯福的支持率只有43%,因而該雜志放出豪言,說蘭頓將以史上最大的優勢擊敗羅斯福成為新一任美國總統。然而,實際的結果卻是羅斯福以史上最大的優勢(61%的得票率)擊敗了蘭頓。結果公布以后,輿論一片嘩然。作為調查發起者的《文學文摘》自然英明掃地,這連帶整個抽樣調查界都受到了波及。既然一個覆蓋1000萬人的調查都能出現如此大的偏差,那還有什么調查是可以相信的呢?為了挽回聲譽,抽樣調查界開始徹查這次調查失準的原因。結果發現,其中最重要的一個原因是調查的抽樣框選擇不當。《文學文摘》的調查樣本是從美國當時的電話簿和車牌登記名單中選出的,這大概只覆蓋了全美35%的人口。更為糟糕的是,在1936年美國經濟大蕭條時期,能用得起電話和開得起汽車的都是高收入者,這些人的政治態度比較保守,大多反對羅斯福的新政;相比之下,羅斯福的改革贏得了很多窮人的支持,當占美國人口主體的窮人都把票投給羅斯福以后,羅斯福以壓倒性的優勢當選也就不足為奇了。“蘭頓總統”事件在抽樣調查史上具有極為重要的意義。一方面,這次事件以后,覆蓋偏差作為一個重要的誤差來源開始進入抽樣調查研究的視野;另一方面,這次事件也破除了調查界對大樣本的迷信,自此之后,抽樣調查界開始更加理性地看待樣本容量問題。而這兩方面也可以幫助我們更加清醒地認識以數據量大著稱的大數據。

前文提到,覆蓋偏差是抽樣框與調查總體不一致而導致的偏差。在“蘭頓總統”事件中,《文學文摘》想要調查的目標總體是所有美國選民,而抽樣框則是電話簿和車牌登記名單,由于二者存在很大出入,這導致其調查結果與最終票選結果存在很大偏差,而且,這種偏差不會因為《文學文摘》把電話簿和車牌登記名單上的美國人都調查遍(即不抽樣)就能消除。總而言之,有無覆蓋偏差與普查還是抽樣調查沒有直接關系,因此,無論是傳統的抽樣調查還是號稱是“全體數據”的大數據,都可能存在覆蓋偏差。而且在很多時候,大數據的覆蓋偏差問題比傳統抽樣調查更嚴重、更隱蔽。

舉例來說,當下很多學者使用的大數據源自互聯網,如使用微博數據研究社會心態。當然,微博數據確實包含很多有價值的信息,而且相比抽樣調查數據在很多方面具有得天獨厚的優勢(如實時性和低成本)。但不可否認的是,使用微博的只是一部分人,而且在所有微博用戶中也有活躍和不活躍之分。既然如此,那么微博數據真正反映的是誰的心態呢?微博用戶?網民?還是其他未知的總體?我想這個問題很難回答,但有一點是確定無疑的,它肯定不是一些研究者所宣稱的全體公民。這些研究者的錯誤在于偷換了一個概念,即:將微博數據的總體(抽樣框)等同于全體公民(調查總體),而且這個錯誤無法通過搜集全體微博數據來彌補。就像在“蘭頓總統”事件中,即使《文學文摘》能夠將電話簿和車牌登記名單上的美國人一網打盡也不能扭轉其預測失敗的結局。

在大數據應用領域,類似這樣無視覆蓋偏差的例子并不罕見。而且,大數據本身的數據量極大,這很容易使研究者和受眾產生一種幻覺,即大數據不存在代表性問題,就像1936年的美國民眾在看到《文學文摘》做的1000萬人調查時產生的幻覺一樣。我想,在一個數據量爆炸的時代,我們只有比1936年的美國人更加清醒,才有可能從琳瑯滿目的大數據中獲取有價值的東西。

三、作為非概率樣本的大數據

綜上所述,從降低抽樣誤差的角度看,大數據并未因為數據量大而比抽樣調查高明很多。雖然以全體數據著稱的大數據可以將隨機性抽樣誤差降為0,但只要抽樣方法使用得當,抽樣調查也可將這種誤差控制在一個可接受的范圍內。而且,如果考慮非隨機性的覆蓋偏差,那么大數據相比抽樣調查反而處于劣勢。由于大數據往往缺乏定義明確的目標總體,一些學者甚至認為,大數據在本質上就不是概率樣本,而是非概率樣本(金勇進、劉展,2016)。

眾所周知,抽樣調查領域存在兩種不同的抽樣方法:一是概率抽樣,二是非概率抽樣(巴比,2020)。盡管在調查研究發展的早期,這兩種抽樣方法都在被使用,但如今概率抽樣已處于絕對的主導地位,而且很多研究人員對基于非概率抽樣得到的結論持極度懷疑的態度(Salganik,2018)。這主要是因為通過非概率抽樣得到的樣本缺乏明確的目標總體,更無法對總體進行嚴格的統計推斷。正因如此,一些大數據的支持者不愿意接受大數據是非概率樣本的事實。然而,正如下文將要指出的,大數據由于其數據量大這一得天獨厚的優勢,反而使非概率樣本具備了推斷總體的條件。而且,隨著大數據的流行,非概率抽樣這一逐漸被學界摒棄的抽樣方法有可能在不久的將來重獲新生。

(一)對非概率樣本的事后分層調整

從理論上講,非概率樣本無法推斷總體。但是,基于一些假定,并通過恰當的統計調整,基于非概率樣本依然可以得到對總體的準確推斷。現有研究已經提出了多個基于非概率樣本的統計調整方法(金勇進、劉展,2016),本節要著重介紹的一種方法是事后分層(post-stratification)。

對非概率樣本的事后分層調整并不復雜。首先,我們需要根據一定標準將樣本分為 個層,并計算樣本中每個層占樣本的百分比( )以及研究的核心變量(如)在每個層的均值( )。然后,我們還需再算出總體中每個層的占比()。最后,基于以下公式,就可以得到經過事后分層調整以后的的總體均值的估計值。

???????????????????????????(1)

從公式(1)不難看出,事后分層在本質上就是一個加權平均,其權重()為各層在總體中的百分比與樣本百分比之比()。該方法得以成立的一個前提條件是基于樣本計算得到的層內樣本均值()與總體真值()相等。那么在什么情況下,這個前提條件才能得到滿足呢?這個問題很難回答,但學者們普遍認為,層的劃分越細,=越可能得到滿足(Salganik,2018)。

舉例來說,我們想要通過一個非概率樣本估算育齡婦女的意愿生育水平。考慮到直接計算會產生較大的偏差,所以參照以往研究,我們決定采用事后分層法進行調整。首先,考慮到城市和農村的生育意愿差異很大,我們先將樣本分為城市和農村兩個層,并計算出樣本中城市和農村的占比,總體中城市和農村的占比以及樣本中城市和農村育齡婦女在生育意愿上的均值。根據公式(1),我們可以很容易地算出對城鄉這一個變量進行事后分層調整以后的平均生育意愿。但是,這步調整是否有效在很大程度上取決于總體中分城鄉的生育意愿與樣本中的結果是否相同。考慮到除城鄉之外,樣本中育齡婦女的構成與總體還存在很多其他方面的差異,如樣本中育齡婦女的年齡可能偏小,而年齡也是影響生育意愿的一個重要因素,因此,僅根據城鄉分層無法得到準確的結果。那該怎么辦呢?通常的做法是在城市和農村內部繼續分層。例如,我們可以在城市和農村內部再按受訪者的年齡分層,并按照與之前類似的方法,算出對城鄉和年齡兩個變量進行事后分層調整以后的平均生育意愿。這樣,我們就可以完全排除城鄉和年齡兩個變量對估計結果的干擾。但是,這樣可能還不夠,我們可能還需要繼續根據教育、收入、職業、地域等多個變量分層,以排除盡可能多的干擾因素。如果這一過程可以無止境地進行下去,那么事后分層的效果必然會越來越好。但是,隨著分層指標的增加,層也會變得越來越細,如果層分得過細,每個層內部的樣本量就會不足,甚至出現空層。這是一個矛盾,特別是在樣本量有限的情況下,這種矛盾沒有辦法得到解決。但是,如果我們面對的是一個大數據呢?

(二)大數據如何助力事后分層

為了說明大數據如何助力事后分層,我們先看一個案例。這個案例也與美國的總統大選有關。前文曾經提到1936年的“蘭頓總統”事件告訴我們,如果使用的是一個非概率樣本,那么樣本量再大也無濟于事。但是,接下來將要介紹的這個案例將在很大程度上改變這種看法。

事情發生在2012年,這次競爭的對手是羅姆尼和奧巴馬。與以往的美國總統大選類似,在結果公布之前,很多民意調查公司都在通過傳統的電話調查法對大選結果進行實時預測。與此同時,王偉等四名學者(Wang?et?al.,2015)也在進行預測。但是與那些民調公司的做法不同,他們基于一個由游戲用戶組成的非概率樣本進行預測。盡管他們所用的樣本量很大(345858人),但早年《文學文摘》的慘敗經歷使得他們的預測結果并不被同行看好。特別是,他們的樣本構成與美國選民差異很大。例如,18~29歲選民在總體中占19%,而在王偉等學者的樣本中卻占65%,男性選民在總體中占47%,而在他們的樣本中則占93%。基于一個偏差如此之大的樣本,直接計算必然會產生非常有誤導性的結果。王偉等人直接從樣本計算發現,羅姆尼將以絕對優勢戰勝奧巴馬(事實上最終獲勝的是奧巴馬),這樣的結果很容易讓人想起1936年的“蘭頓總統”事件。但是,在使用一種被他們稱為基于多層次回歸模型的事后分層調整法(multilevel?regression?with?post-stratification,?MRP)之后,王偉等學者得到了與實際大選結果非常接近的樣本估計值,其估計精度甚至比民意調查公司還要高。

具體來說,他們首先按照性別(2類)、種族(4類)、年齡(4類)、教育程度(4類)、州(51類)、黨派(3類)和意識形態(3類)以及2008年大選時的投票選擇(3類)將樣本分為了176256個層,然后采用上一節介紹的事后分層法對計算結果進行調整。值得注意的是,由于他們的樣本量很大,這使得他們可以進行非常細致的分層。但即便如此,仍有一些層的樣本量很小,甚至為0。為了避免這些層對估計結果的干擾,他們使用了多層次回歸模型,以對那些樣本量很小的層進行更加穩健的估計。在這個例子中,王偉等學者使用的仍是一個樣本量有限的調查數據,而不是真正意義上的大數據。可以想象,如果他們可以獲得大數據,那么完全可以進行更加細致的分層,甚至無需使用多層次回歸模型就可得到最終結果。由此可見,數據量大是進行有效事后分層調整的必備條件,而以數據量大著稱的大數據無疑在這個方面具有得天獨厚的優勢。因此,雖然大數據在本質上是非概率樣本,但依然可以對總體進行較為準確的推斷。

四、大數據的三種分析策略

上文的各種討論都是圍繞代表性問題展開的。我們認為,大數據在代表性上并不比傳統的抽樣調查更有優勢,如果真要說有什么優勢的話,那么它也只是針對非概率樣本而已。因此,數據量大并不能確保研究者基于大數據就一定能得到比傳統抽樣調查更加準確的結論。但是,當研究者面臨以下三種情況時,大數據卻會擁有小數據所無法比擬的優勢(Salganik,2018)。

(一)研究稀有事件

首先,大數據特別適合用于研究稀有事件。稀有事件指的是發生率很低的事件,因為發生率低,抽樣調查的代表性往往出現不足。舉例來說,筆者曾使用2005年全國1%人口抽樣調查數據研究中國人使用母親的姓和新復姓(將父姓和母姓結合起來)給子女命名的趨勢和影響因素(許琪,2021)。在中國“子隨父姓”傳統的影響下,隨母姓和新復姓的發生率都很低(約1%),如果我們使用傳統的抽樣調查數據,很難得到什么有價值的發現。這主要是因為抽樣調查數據的樣本量多在1萬人左右,基于這樣的數據規模,我們根本無法準確估算總體中隨母姓和使用新復姓的百分比,更不用說去研究這兩種現象隨時間的變動趨勢和地區差異了。而2005年全國1%人口抽樣調查數據的樣本量達到了258萬,這就為我們全面研究中國人隨母姓和使用新復姓這兩個稀有事件提供了便利。

上文所舉的例子使用的不是一般意義上的大數據,但也足以說明數據量大對研究稀有事件的好處。下面,我們將再舉一個大數據的例子。米歇爾等人曾使用谷歌圖書大數據研究不同詞匯的使用趨勢(Michel?et?al.,2011)。他們所用的語料庫包含超過5000億個單詞,時間跨度超過4個世紀,如果將這些單詞寫成一行,其長度大約可在地球和月球之間往返10次。面對這樣一個大數據,無論其使用者還是讀者都會感到無比驚嘆。但在驚嘆之余,使用者和讀者們也必須思考一個問題,即如果數據量沒有這么大會怎么樣?正如薩爾加尼克所指出的,使用者和讀者必須思考:如果數據量只夠從地球和月球之間往返一次或者更少,結果又會如何(Salganik,2018)。仔細閱讀米歇爾等人的研究可以發現,他們確實需要這樣大的數據,因為他們的一個核心議題是不規則動詞的使用率如何隨時間變化,考慮到一些不規則動詞的使用率非常低,尋常的語料庫根本無法支撐起這樣一項研究,所以,他們必須使用像谷歌圖書這樣的大數據。

(二)分析異質性

其次,適合使用大數據研究的第二種情形是分析異質性。在這個方面的典型案例是切蒂及其同事對美國社會流動率的研究(Chetty?et?al.,2014)。薩爾加尼克曾對之進行了非常充分的介紹(Salganik,2018)。

父母社會經濟地位對子代地位獲得的影響是社會學研究領域的一個經典議題(Hout?&?DiPrete,2006;Blau?&?Duncan,1967)。很多研究人員通過對比父子兩代的社會經濟地位來分析社會流動,其基本研究結論是:父母社會經濟地位越高,子代的社會經濟地位也越高。但是,代際之間在社會經濟地位上的關聯程度在不同時期和不同社會也存在非常明顯的差異。受限于研究數據,以往的研究很少對這種異質性進行深入分析,而切蒂及其同事使用4000多萬美國人的納稅記錄對這個問題進行了開創性研究。他們發現,在美國的不同區縣(county),社會流動率之間的差異很大。例如,在加利福尼亞州的圣何塞,如果一個小孩出生于全美收入等級最低1/5的家庭,那么他的收入躍居全美收入水平最高1/5的概率約為13%;而在北卡羅來納州的夏洛特,這一概率僅為4%。而且,他們的進一步研究還發現,一個地區的社會流動率與該地區的居住隔離程度、收入不平等水平、教育資源、社會資本和家庭穩定性等指標密切相關。毫無疑問,這項研究為深入研究社會流動率的地區差異及產生原因具有重要意義。但是,使這項研究得以可能的一個重要前提是,切蒂及其同事獲得了樣本量極大的收入數據,基于這個數據,他們可以計算出更小地理空間范圍內的代際流動率,并將之與其他地區層面的社會經濟指標相匹配,而這在以往的小樣本研究中是不可想象的。

(三)發現細微差異

最后,使用大規模數據還有助于發現細微但依然有重要價值的差異。以往的很多研究已經發現,隨著數據量的增加,統計顯著性的價值逐漸下降,因為在一個規模近乎無限的樣本中,幾乎所有差異都是統計顯著的(Blalock,1979)。因此,在大數據研究中,我們更應關注實際顯著性,而非統計顯著性。但是,對實際顯著性的強調在小樣本研究中也很重要,只不過與小樣本相比,大數據的價值在于能夠發現那些小樣本無法檢驗的細微但依然重要的組間差異。

我們在前文曾介紹了王偉等學者對2012年美國總統大選的預測研究(Wang?et?al.,2015)。這項研究的一個重要貢獻是采用了基于多層次回歸模型的事后分層法準確估算出了不同候選人的支持率。但是,上述貢獻依然不足以充分說明這項研究的價值,因為在王偉等學者進行這項研究之前,美國就已經發展出了非常成熟的民意調查法,并成功預測出了多年的總統大選結果。那么,相對傳統的民意調查,王偉等學者的高明之處體現在哪里呢?

一般來說,名義調查的樣本量都在2000人左右,這樣的樣本足以應付一般情況下的總統大選預測(巴比,2014)。但是,如果競選的雙方勢均力敵,民意調查的缺陷就暴露出來了,因為基于2000人左右的調查數據,研究者無法準確推斷出支持率上的細微差異。2012年的美國總統大選正是這種情況,羅姆尼和奧巴馬的支持率一直相持不下,這導致各大民意調查機構始終無法給出一致的預測結果。而王偉等學者使用的樣本比一般的民意調查大很多,這使他們能夠得到比民意調查更加準確的結果。

通過這個例子不難發現,大數據在發現細微差異方面擁有小數據無法比擬的優勢,特別是在這種細微差異足以影響最終結論的情況下。在商業領域,1個百分點的差異可能會影響數以百億計美元的投資決定;而在公共衛生領域,0.1個百分點的差異就可能關乎成千上萬人的生命(Salganik,2018)。因此,當研究者面臨類似決策的時候,無疑將更加偏愛大數據。這也是在大數據興起之后,業界普遍對大數據時代的到來感到興奮不已的真正原因。

五、總結與討論

本文從數據量大這一個角度分析了大數據相比傳統抽樣調查的優勢以及研究者應該如何利用好這一優勢開展大數據研究,主要結論如下:

首先,從理論上看,作為“全體數據”的大數據確實可以徹底消除隨機性抽樣誤差,但由此帶來的估計精度上的提升并不大,一個設計良好的抽樣調查也可將隨機性抽樣誤差控制在一個可接受的范圍內。而且,如果綜合考慮系統性抽樣偏差,特別是覆蓋偏差,那么大數據在代表性上可能還不如抽樣調查。抽樣調查往往有定義明確的調查總體,且對抽樣框的要求也比較嚴格,而大數據與目標總體間的關系往往比較模糊,因此,我們不能僅憑數據量大這一點就認為大數據沒有抽樣誤差。實際上,大數據中的抽樣誤差問題比傳統抽樣調查更復雜,也更隱蔽。如果大數據與目標總體間的差異過大,那么基于大數據發現的很可能僅是一個更加精確的錯誤,而不是真理。

其次,由于大數據往往缺乏一個定義明確的目標總體,所以嚴格來說,很多大數據并不是概率樣本,而是非概率樣本。以往的研究通常將大數據和基于概率抽樣得到的抽樣調查數據進行比較,但這種比較實際上是不合適的,對大數據來說,比較合適的比較對象是基于非概率抽樣方法得到的非概率樣本。與傳統的非概率樣本相比,大數據的優勢非常明顯。其原因在于,大數據的數據量極大,這使得研究者可以使用大數據進行非常精細的事后分層并基于事后分層對原始計算結果進行統計調整。由此可見,大數據雖然是一個非概率樣本,但數據量大這一內在優勢使其可以有效避免一般的非概率樣本無法推斷總體的缺陷。

再次,本文還指出了研究者使用大數據的三種分析策略:研究稀有事件、分析異質性和發現細微差異。我們認為,大數據相比小數據的一個顯著優勢在于可以使研究者進行更加精細化的研究。因此,數據量大的真正價值在于“細”,而不在“大”本身。以往的研究通常認為,使用大數據可以提高對研究總體的代表性,但這個觀點是不準確的。我們認為,數據量大的真正優勢在于提高總體中每個細節的代表性,因此,基于大數據,我們可以分析重要但發生率很低的稀有事件,分析總體內部不同構成部分之間的異質性和細微差異。我們可將這種研究策略稱為“精細化研究”,從這個角度說,上文提到的精細化事后分層也可視為精細化研究的一種。我們認為,只有充分認識到數據量大的真正價值,才能正確利用好大數據為社會科學研究和社會經濟發展做出更大的貢獻。

最后還需說明的一點是,本文的所有分析都圍繞“數據量大”這一個方面展開,對一些大數據研究的批評也僅針對這一個方面。眾所周知,大數據作為一種新興的數據來源,其優勢和特點體現在多個方面,如實時性、非反應性、低成本等。本文因篇幅限制,不能面面俱到,但僅從數據量大這一個方面來看,學術界對大數據的很多認識依然流于表面,甚至包含不少錯誤。因此我們認為,研究者在討論和使用大數據時一定要保持清醒的頭腦,不能被其表面現象所迷惑。最重要的是,要保持一種方法論相對主義的立場。就像本文在開頭所提到的,社會科學的研究方法是多元的,沒有一種方法具有絕對的壓倒性優勢。因此,在使用任何一種方法時,都必須先思考一下,是不是一定要用這種方法?與其他方法相比這種方法的優勢在哪里?目前正在進行的研究是否能充分發揮這一優勢?我們認為,方法論相對主義的研究立場不僅有助于避免對某一種方法的盲目跟風,也有助于避免對某些方法不切實際的批評。對大數據這種依然存在爭議的方法,方法論相對主義的研究立場更加重要。正如薩爾加尼克所言,沒有一種方法是絕對正確的,也沒有一種方法一無是處。只要一種方法適用于當前的研究問題,無論其本身是否完美,就是應當采用的方法(Salganik,2018)。我們認為,這樣一種方法論相對主義的研究立場對大數據同樣適用。

參考文獻

艾爾·巴比,2020,《社會研究方法》,北京:清華大學出版社。

維克托·邁爾-舍恩伯格、肯尼斯·庫克耶,2013,《大數據時代:生活、工作與思維的大變革》,浙江:浙江人民出版社。

鮑雨,2016,《社會學視角下的大數據方法論及其困境》,《新視野》第3期。

陳云松、張亮亮、閔尊濤等,2016,《大數據機遇與宏觀定量社會學的重啟》,《貴州師范大學學報》(社會科學版)第6期。

金勇進、劉展,2016,《大數據背景下非概率抽樣的統計推斷問題》,《統計研究》第3期。

劉林平、蔣和超、李瀟曉,2016,《規律與因果:大數據對社會科學研究沖擊之反思——以社會學為例》,《社會科學》第9期。

羅瑋、羅教講,2015,《新計算社會學:大數據時代的社會學研究》,《社會學研究》第3期。

潘綏銘,2016,《生活是如何被篡改為數據的?——大數據套用到研究人類的“原罪”》,《新視野》第3期。

孫秀林、施潤華,2016,《社會學應該擁抱大數據》,《新視野》第3期。

謝宇、胡婧煒、張春泥,2014,《中國家庭追蹤調查:理念與實踐》,《社會》第2期。

許琪,2021,《隨父姓、隨母姓還是新復姓:中國的姓氏變革與原因分析(1986—2005)》,《婦女研究論叢》第3期。

袁方、王漢生,1997,《社會研究方法教程》北京:北京大學出版社。

張文宏,2018,《大數據時代社會學研究的機遇和挑戰》,《社會科學輯刊》第4期。

趙超越,2019,《本體性意義與學科反思:大數據時代社會學研究的回應》,《上海大學學報》(社會科學版)第1期。

Blalock,?Hubert?M.1979,?Social?Statistics.?New?York:?McGraw-Hill?Book?Company.

Blau,?Peter?M.,?Otis?D.?Duncan?1967,?The?American?Occupational?Structure.?New?York:?John?Wiley?&?Sons.

Chetty,?Raj,?Nathaniel?Hendren,?Patrick?Kline,?Emmanuel?Saez??2014,“Where?Is?the?Land?of?Opportunity??The?Geography?of?Intergenerational?Mobility?in?the?United?States”.?Quarterly?Journal?of?Economics?129?(4).

Groves,?Robert?M.,?Floyd?J.?Fowler,?Mick?P.?Couper,?James?M.?Lepkowski,?Eleanor?Singer,?Roger?Tourangeau?2009,Survey?Methodology.?New?York:?John?Wiley?&?Sons.

Hout,?Michael,?and?Thomas?A.?DiPrete?2006,?“What?We?Have?Learned:?RC28’s?Contributions?to?Knowledge?about?Social?Stratification.”?Research?in?Social?Stratification?and?Mobility?24?(1).

Kish,?Leslie?1965,Survey?Sampling.?New?York:?John?Wiley?&?Sons.

Michel,?Jean-Baptiste,?Yuan?Kui?Shen,?Aviva?P.?Aiden,?Adrian?Veres,?Matthew?K.?Gray,?the?Google?Books?Team,?Joseph?P.?Pickett,?et?al.?2011,?“Quantitative?Analysis?of?Culture?Using?Millions?of?Digitized?Books”.?Science?331?(6014).

Salganik,?Matthew?J.2019,?Bit?by?Bit:?Social?Research?in?the?Digital?Age.?Princeton:?Princeton?University?Press.

Wang,?Wei,?David?Rothschild,?Sharad?Goel,?Andrew?Gelman?2015,?Forecasting?Elections?with?Non-Representative?Polls.International?Journal?of?Forecasting?31?(3).

[1]作者簡介:許琪,博士,南京大學社會學院副教授,研究方向主要為社會學量化研究方法、婚姻與家庭、社會分層與不平等。聯系郵箱:xuqi19870527@163.com。

主站蜘蛛池模板: 临洮县| 新绛县| 青海省| 南江县| 洛南县| 辽阳县| 柘城县| 隆回县| 合江县| 邹平县| 巴彦淖尔市| 广西| 博客| 林芝县| 昭平县| 蒙阴县| 油尖旺区| 富平县| 涟水县| 文登市| 寿宁县| 东宁县| 资中县| 泾源县| 太仓市| 怀远县| 蓝山县| 黔西| 东乌珠穆沁旗| 乌鲁木齐市| 峡江县| 将乐县| 冷水江市| 咸阳市| 五河县| 辰溪县| 安国市| 绥阳县| 门源| 容城县| 讷河市|