官术网_书友最值得收藏!

導論

謝宇[1]

近些年來,隨著“大數據”這一概念在國內的普及,越來越多的來自各學科領域的學者意識到調查與量化科學研究對中國研究的重要性,這種意識超越學術界,影響了整個社會。很多學者、學術機構或社會企業都進行過采集數據等一系列嘗試,其中不乏值得肯定的工作成果,但絕大部分調查通常是區域性或專題性的,樣本量有限,樣本代表性有限,無法滿足多樣化的研究需要。早在2006年,北京大學就成立了中國社會科學調查中心(以下簡稱“調查中心”),致力于社會科學領域的調查數據采集和對中國社會問題的實證研究。依托調查中心,中國家庭追蹤調查(China Family Panel Studies,CFPS)項目得以立項[2],該項目力圖為學術界、為所有對中國社會感興趣的學者,乃至社會各界人士提供公開、免費、高質量的數據。以CFPS數據為基礎,自2009年起,調查中心推出“中國民生發展報告”(以下簡稱“報告”)系列[3],對與中國民生相關的主要議題及熱點話題進行全面描述和分析性解讀。其中,我參與寫作并負責主編了2013年、2014年、2016年的報告,并有幸于2018年繼續主持報告的編寫工作。

目前,CFPS已成功實施了四期全樣本追訪工作,前三期追訪調查分別于2012年、2014年、2016年實施,最新一期2018年的數據尚未發布。[4]因此,本書的各章節內容主要基于2016年及此前的數據,對中國社會近幾年的民生熱點進行全面、客觀的分析。此外,本書也將為各位讀者介紹和分享CFPS的調查方法與經驗。

一 大數據與社會調查

近年來,“大數據”概念的興起和傳播一定程度上讓一些人擔憂“傳統”社會調查在社會研究中的地位會有所動搖,甚至盲目地認為社會調查已經過時,在研究價值上比不上大數據。誠然,大數據與計算科學的發展的確帶來了研究方法的創新,為一些議題的研究開拓了新局面,也引領了一些過去社會科學難以涉足的新領域的發展。但就大數據的特征和現階段的發展而言,將其運用于社會研究仍存在不少局限。

很多人誤以為大數據就是大樣本乃至海量樣本的數據,因此會將許多大規模問卷調查也歸于此類,這種看法顯然沒有真正理解大數據的含義。所謂“大數據”,是我們現代生活或工作留下來的數字腳印(footprint)。現代化生活中諸多電子化的生活和工作方式(比如打電話、網購等)為我們提供了可以保存和利用電子化數據的機會。從這個角度說,“大數據”其實并不是為研究而產生,而是我們日常生活留下的痕跡。以此為前提,我們不難發現,大數據有以下幾個典型的特征:首先,它并不是一個新生事物,數據本身在很早以前就已經存在了。比如美國早在18世紀就有人口普查,有各種檔案和文本,雖然這些信息并沒有完全電子化,但是它們已經被記錄并保存下來,是可以實現電子化的。

其次,大數據的重點并不在于“大”。雖然我們的生活每時每刻都在不斷地產生數據,積累了海量的樣本,但這個意義上的“大”并不是它的主要特征,大數據的主要特征在于其產生方式不同,它是隨著我們的日常生活和工作自然而然地產生,并不是專門為了研究而產生的。

最后,大數據具有“被動性”。有時候我會將大數據稱作被動數據,因為它不是為研究而有目的地收集的,而是被動產生的。比如,打電話的通話記錄會被保留,在這一情境里,人們并不是為了研究而去記錄通話數據,打電話只是日常工作和生活的一部分,隨之產生的數據是被動記錄的。

在中國,長期以來,由于各種各樣的原因,民眾很難了解到真實的數據。在沒有其他數據來源的情況下,大數據的出現和普及使大家有了一些了解現實情況的渠道。它打破了過去數據嚴重缺乏或被壟斷的局面,在采集方式上使從前一些難以收集和掌握的數據(如交通、社交網絡數據)的獲取變得更容易,給人們提供了過去沒有的數據、新的知識和觀察視角,這種從無到有的變化,是它的一個重要貢獻。但盡管如此,從研究的角度來說,大數據也有缺陷。

1.代表性問題

大數據的代表性是有缺陷的,在研究中,我們難以得知大數據所代表的總體是什么以及如何分布。比如,有的人用手機,有的人不用;有的人一天發很多條微博,也有人一條都不發;有的人有幾個銀行賬戶,有的人沒有賬戶……如果產生數據的人和不產生數據的人之間不存在差異,我們尚可以忽略代表性的問題,但如果產生數據的人和不產生數據的人之間存在系統性的差異,就會產生選擇性問題,這是海量的樣本難以解決的。因為這些行為數據是被動記錄的,很難進行人為控制,只能用統計的方法盡量減少偏差。我們所獲取的大數據的總體情況究竟如何、總體是否隨時間的變化而發生變化、能不能進行推論、推論的對象是誰,這些異質性問題和選擇性問題都很難解決。

2.可靠性和質量問題

大數據的變量可靠性和數據質量也是不確定的。比如,在機器學習的文本分析中,表達正面情緒的一個形容詞和一個主語放在一起,機器認為它是正面的,但它實際上可能表達的是諷刺或者其他的含義。人只有完整讀完這段話才能理解它背后的情緒,但機器不一定能讀出來,諸如這樣的干擾(noise)還有很多例子。此外,海量的數據還意味著數據清理的代價也很大,也許很多人不做數據清理,可能也不做數據驗證(verification)。但若不做這些最基本的工作,數據質量很可能存在問題。

3.測量(measurement)問題

在傳統調查搜集數據的實際操作中,一些問題的設計與提問本身就存在一定的難度,比如提問與情感、態度、觀念有關的問題等。而在被動數據中,只有表達了強烈的情緒,才能通過數據讀出這個人的情感。可是一般情況下人的情感未必有那么強烈,也未必會直接進行表達,而且很難用設計來把內在(隱私)的東西挖掘出來(這也是不合法的)。大數據作為被動數據,難以對上述問題進行細致的處理,也不能通過設計來改進,所以它的測量是有限的。

4.數據整合(data integration)和數據厚度問題

大數據的分散性造成了數據整合的困難。假設我們擁有電話數據和銀行賬戶數據,將這兩類數據整合起來看似可以獲取用戶的很多信息,為服務用戶和分析研究提供支持。但事實上,有些用戶的錢未必都存在自己的賬戶里,或者電話號碼并不是用本人的身份證注冊的,諸如此類的情況使整合后的數據存在很多問題,難以用于分析和研究。還有很多類似的情況,比如學歷、病歷等。合并這些數據是非常困難的。首先,電子數據的產生時間并不長,可以使用的信息有限;其次,大數據的變量非常少,不足以用來全面描述和分析人們長期的生活軌跡、生活事件和后果之間的關聯。從這個角度來說,大數據雖然“大”,但信息仍太“單薄”,缺乏厚度。

就上述方面,傳統的社會調查數據較之大數據則擁有許多優勢。調查數據是依據一定的研究目的設計并有針對性地采集而獲得的。在概率抽樣調查中,總體和樣本框是明確的,樣本選取的過程是已知的,即便是有失訪或拒訪的人群,這些人群的一些基本特征也是能夠被了解并且被納入對數據質量的評價中。社會調查中的變量測量方案通常是嚴格根據研究需求而設計的,有些調查可能有幾千個變量,涵蓋研究對象的各個方面,甚至可以根據調查需要,從不同受訪者的角度來采集更可靠或更相關的信息。相比之下,大數據大多記錄的是單一方面的行為痕跡(比如微信、微博),研究者對個體的其他特征了解得非常少,又缺乏長期跟蹤,很難深入探索異質性、因果性等問題,在數據厚度上難以與傳統社會調查媲美。

不過,所有社會現象的數據都是有局限性的,這也是為什么人們有必要采集不同類型的數據,從不同方面、不同角度看待同一個問題(謝宇,2018)。特定的數據服務于特定的目的,如果使用數據的目的是為了推斷個體層次的行為,則大數據的價值在于能夠提供個體某些方面的行為細節,因此它在諸如個性化的廣告推送、個性化的政策實施等領域大有作為。但如果使用數據的目的是為了推斷總體特征,樣本代表性還是優先于細節上的準確性。因此,談到數據的利與弊,我們應該時刻提醒自己使用數據是為了服務于研究哪些問題。在社會科學領域的大多數研究中,最重要的仍是把握個體的異質性(謝宇,2006)。由于個體的異質性很強,若要探究個體特征,需要不同的測量,包括對基因、出生狀況、家庭背景、教育經歷、職業生涯、中老年生活等整個生命歷程(life course)的各個方面數據的采集,并且是長期的、追蹤性的調查,這種數據采集工作是基礎性的,需要長時間的積累,目前中國仍缺乏這種持續多年的追蹤調查(panel survey)。

二 CFPS數據的價值

作為一項全國性追蹤調查,CFPS長期跟蹤收集個體、家庭、社區三個層次的數據,調查內容包括村/居概況、家庭關系、人口流動、家庭經濟、居住與設施、工作與收入、教育、婚姻、健康、態度觀念、認知能力和社會交往等諸多主題(謝宇、胡婧煒、張春泥,2014)。

正如前文所述,追蹤調查最重要的價值之一是可以追蹤調查對象完整的生命歷程,了解調查對象的特征、行為、經歷是如何隨著時間的推移而發展變化的(謝宇等,2014)。作為追蹤調查的個體是反映人類社會變異性的最基本的單元,許多社會現象(如社會不平等、人口素質、生活質量、社會心理和文化等)最終都會具體化為個體層次的收入、職業、教育、健康、幸福感及態度等;社會的變遷(如代際流動、人口結構的改變、家庭制度的演變等)最終也可以通過個體層次的變化體現出來。所以,要了解社會,就必須先了解社會中不同的個體長期以來在角色、地位、行為和態度等方面的差異和變化。CFPS的首要分析單元即是個體——基因成員及其核心親屬,它針對這些個體采集了全方位、多角度的回溯性和追蹤性的數據。

在追蹤個體生命歷程發展變化情況的同時,CFPS也追蹤了家庭和社區的變化。中國社會的結構具有多層次性,這體現為個體嵌套在層層的社會組織(如工作單位、村莊、家庭等)中。在這種嵌套結構中,家庭是最基礎也是對個體產生最直接影響的社會組織,我們對中國社會的認識與研究往往不能將研究對象置于家庭之外。因此,家庭也是CFPS中一個重要的研究對象和調查單元。CFPS采用了可明確定位親屬關系、描述家庭結構的方法,對家庭關系和家庭成員展開了全方位的深度調查。同時,它也詳細采集了家庭層次上經濟社會生活各方面的數據。CFPS在家庭數據采集上的優勢很大程度上豐富了該調查經驗資料的層次,為研究者分析中國社會提供了更多有價值的信息(謝宇、胡婧煒、張春泥,2014)。除家庭外,個體的生命歷程也與其所生活的社區環境密切相關。相比于個體和家庭,社區的變化往往更難以觀測。首先,一個社區的形成是由一個個單獨的個體或家庭彼此在自覺或不自覺的居住選擇基礎上互動形成的結果,每個社區都是在這種動態過程中形成和發展的;其次,在一個已經成型的社區內,個體或家庭的行為活動、發展軌跡并非僅單向地受社區環境的結構性制約,個體或家庭的行為及其互動也會直接或間接地引發社區環境的變化。CFPS力圖借鑒西方學者發展的調查方法(Axinn et al.,1997),盡可能真實、完整地記錄中國社區的變遷,為研究個體、家庭、社區的多層互動及其影響留下寶貴的資料(謝宇、張曉波、徐宏偉、靳永愛、胡婧煒,2014)。

三 本書章節介紹

本次出版的《中國民生發展報告2018~2019》正是依托CFPS數據來呈現中國社會在多個重要領域的面貌與變化。本書共分為15章。考慮到讀者的不同背景,我們將本書分為綜述報告、專題研究、方法介紹三個部分,以滿足不同讀者的閱讀需求。

綜述報告(第一至五章)涵蓋了收入與支出、人口遷移、性別、婚姻等與民生發展息息相關的議題。第一章“收入分配”描述了2016年中國家庭收入的水平與構成,以及從2014年至2016年收入的變化。第二章“家庭支出與消費”主要根據CFPS 2016的家庭支出數據對家庭進行分類,描述及概括了家庭支出的幾種主要模式及其特征。第三章“遷移”聚焦鄉城遷移人口,系統描述了人口遷移的整體情況,在與城鎮本地人口的對比中呈現了處于勞動年齡的鄉城遷移人口的特征。第四章“性別差異”主要從教育、工作與社會參與、家庭等方面對我國男女兩性的差異進行了描述和分析。第五章“婚姻與家庭”則基于CFPS 2016描述了中國人婚姻行為的幾個典型特征,并著重探討了婚姻和生育行為與女性勞動參與的關系。

專題研究(第六至十一章)聚焦少兒發展,[5]探討了家庭對少兒身心發展、教育與行為的影響。其中,第六章“少兒的身體發展”報告了少兒身體健康的不同方面,描述了少兒在身高、體重、生長發育遲緩率、體重過高或過低等指標上的發展狀況,及其在性別、城鄉和家庭收入上的分化。第七章“農村家庭子女性別與醫療照料”主要利用CFPS 2014農村多子女家庭的數據,探究了中國農村家庭對患病少兒的醫療決策與照料行為上的性別偏好,以及年齡和同胞競爭因素對少兒醫療照料的性別差異的影響。第八章“家庭背景對子女教育成就的影響”以家庭與少兒教育發展為主題,分析了家庭背景與少兒學業成就之間的關系。第九章“課外輔導”探討了少兒的課外輔導參與率、課外輔導支出及其在城鄉與家庭之間的差異。第十章“家庭養育觀念及其影響因素”重點探討了中國家庭養育觀念以及家庭社會經濟地位對其的影響。第十一章“離異家庭中的少兒”較為全面地評估了當今中國父母離婚對孩子發展的影響,重點探究了中國離異家庭的特征,父母離異對家庭教育和養育投入的影響,并評估和考察了離異單親家庭和雙親家庭少兒在學業、在校表現、心理特征、越軌行為等方面的表現,以及父母婚內爭吵對少兒各方面發展的影響。

方法介紹(第十二至十五章)部分主要向讀者介紹和分享了CFPS使用的一些重要技術和變量處理方案,同時也介紹了CFPS與其他一些數據的整合。其中,第十二章“中國民營企業家特征分析”主要介紹了中國企業創新創業調查數據如何與CFPS 2016數據相整合來刻畫中國民營企業和民營企業家的特征。第十三章“CFPS方言編碼報告”提供了基于漢語方言分類譜系構建的方言類型的標準編碼,以此作為對原編碼體系的補充,彌補了原有方案的缺失信息。第十四章“問卷調查中的訪員觀察”介紹了大型問卷調查中訪員觀察數據的用途、采集方法、質量,并以CFPS為例,報告了個人問卷中訪員觀察數據的采集、用途和分布特征,為數據用戶使用該數據提供了參考建議。第十五章“CFPS樣本追蹤設計及執行效果”從設計與執行兩個方面出發,具體介紹了CFPS在樣本追蹤上嘗試過的方案及效果,并與國際同期同類型調查相比較。

盡管我們在本書中盡可能多地向讀者呈現了有關中國社會變遷的重要議題和數據發現,但這些分析仍然是初步的。要認識和理解當代中國社會,仍然有待更深入、細致的研究。希望各位讀者能夠從本書中獲得一些啟發,也希望CFPS數據能夠為更多學者的實證研究提供支持,產生更多優秀的成果。

參考文獻

Axinn,William G.,Jennifer S. Barber,& Dirgha J. Ghimire.1997. “The Neighborhood History Calendar:A Data Collection Method Designed for Dynamic Multilevel Modeling.” Sociological Methodology Sociological Methodology 27(1):355-392.

謝宇,2006,《社會學方法與定量研究》,北京:社會科學文獻出版社。

謝宇,2018,《專訪謝宇教授(上):大數據的重要價值不是“大”》,https://mp.weixin.qq.com/s/qSYuKZA6nbVuT9WE4e4pdw,2018-08-24/2019-02-22。

謝宇、胡婧煒、張春泥,2014,《中國家庭追蹤調查:理念與實踐》,《社會》第2期。

謝宇、張曉波、徐宏偉、靳永愛、胡婧煒,2014,“導論”,載謝宇、張曉波、李建新、于學軍、任強著《中國民生發展報告2014》,北京:北京大學出版社。


[1] 謝宇,北京大學講席教授、社會研究中心主任,美國普林斯頓大學社會學教授、當代中國中心主任。

[2] CFPS項目自2006年開始前期籌劃與準備工作,并于2008年、2009年進行了兩輪預調查,2010年正式開始實施并完成了基線調查的執行工作。

[3] “中國民生發展報告”系列叢書在2009~2016年間共出版8輯(每年一輯),前三輯報告名稱為《中國報告·民生》,從2011年起,該系列叢書成為教育部哲學社會科學系列發展報告資助項目,自此更名為“中國民生發展報告”。

[4] 2018年下旬,CFPS發布了跨年核心變量庫(2010~2016年)。

[5] 自2019年起,“中國民生發展報告”系列叢書將以“綜述報告”、“專題研究”、“方法介紹”這三個模塊為固定結構,每年的“專題研究”部分都將更換不同的專題進行重點探討,今年的主題為“少兒發展”。

主站蜘蛛池模板: 黎川县| 桦甸市| 安龙县| 金华市| 磐安县| 大冶市| 阜新| 汉沽区| 名山县| 永清县| 林西县| 东源县| 易门县| 玉树县| 永吉县| 昌江| 九龙县| 涟水县| 临武县| 汽车| 榆社县| 渝中区| 启东市| 新化县| 剑阁县| 布拖县| 钦州市| 广水市| 永吉县| 邵阳市| 玉环县| 肃宁县| 濉溪县| 洪泽县| 松溪县| 连平县| 天全县| 大冶市| 龙里县| 孝感市| 三原县|