- 政治學評論(2023年第1輯)
- 佟德志主編
- 7351字
- 2025-04-28 20:30:16
一 大數據政治學的技術驅動
大數據政治學是大數據引發的政治學革命,即大數據時代的政治學。大數據是互聯網、數據挖掘、人工智能等信息通信技術元素交匯復合的必然產物,[3]成為新一輪科技革命的典型標志。技術變革是政治學知識生產方式變化的基礎驅動力。大數據政治學就是發生于新一輪科技革命背景之下,由大數據技術體系與政治學研究相互交融產生的交叉領域和新興學科,既是利用大數據及其分析技術來研究政治現象、政治問題以及探索政治規律的過程中形成的交叉,更是新技術條件下政治學研究方式回應性變革的產物。
因此,技術驅動構成了大數據政治學的核心特征??傮w而言,大數據政治學就是以大數據為材料、以計算為方法的政治學研究。根據這一定義,從技術層面對大數據政治學的理解也能夠進一步分解為兩個方面,即大數據和大數據計算。大數據對政治學的驅動也正體現在這兩個方面,即大數據產生的數據驅動和大數據分析技術產生的計算驅動,在此意義上,大數據政治學也是計算政治學的基礎領域和重點方向。
大數據政治學是以大數據為材料的政治學。能夠針對特定的政治現象和議題獲取大數據,是大數據政治學最為基礎的特征。這一特征不僅體現在大數據本身所具有的“3V特征”,即規模性(Volume)、速度快(Velocity)和多樣性(Variety)方面,[4]也體現在以特定政治現象為研究客體所獲得的數據當中,這種數據方面的特征是傳統政治學研究不曾體現的。因此,材料上的特征是大數據政治學的基本特征,也是大數據政治學的核心優勢。
大數據政治學也是以計算為方法的政治學。面對大數據,傳統的數據處理方法已不再適用。因此,以有效處理大數據為目標,逐漸產生了一系列大數據計算方法。這些計算方法通常是伴隨著大數據一起形成和發展的,以機器學習、自然語言處理、大語言模型等方法為核心,是大數據和現代人工智能的核心技術。由于大數據政治學的材料是大數據,因此,大數據政治學必須以大數據計算為方法,這些分析技術和方法是傳統政治學不曾具備的,這也是大數據政治學在方法上的優勢。
因此,大數據的技術驅動包括了大數據和大數據分析技術兩個方面。一般而言,大數據與大數據計算是緊密相關的,將二者配套使用會產生更好的效果。當然,針對特殊的研究問題,對數據與方法在運用中也可以進行不同的選擇。例如,利用非大數據方法來計算大數據,抑或針對小規模數據采用大數據方法,獲得小數據分析抑或定性分析所達不到的效果。此外,綜合利用小數據和大數據,形成材料和方法的混合驅動,也是當前學術研究中存在的現象。但總體而言,大數據政治學的變革性特征集中體現于數據驅動和計算驅動兩個方面,這兩個方面的合力使政治學邁入了大數據時代。
(一)數據驅動
數據驅動是大數據政治學的首要特征。過去十多年,政治學面臨的一個主要變化就是不斷激增的大數據。[5]隨著互聯網普及、物聯網進步、智能終端快速發展和云計算技術成熟,“萬物互聯”已經成為現實,這些不同技術元素交匯復合,使大數據源源不斷地被生產和利用,之前無法采集和分析的大數據也進入了政治學的研究領域。
數據生產方式的重大變革是大數據時代的核心特征。數據是事實或觀察的結果,通常用于表示客觀事物。例如,《現代漢語詞典》就將數據解釋為進行各種統計、計算、科學研究或技術設計所依據的數值。[6]在大數據時代之前,數據生產長期依賴人力觀察、記錄和整合,特別是現代調查統計技術在很長時間內構成了主要的數據來源途徑,形成規模有限且高度結構化的數字數據。而在大數據時代,數據生產方式由人力搜集逐漸轉變為自動生成,呈現出自動化、實時化和規?;卣鳌T谶^去近三十年的時間里,人類社會的數據生產方式經歷了運營系統、用戶原創、感知系統三個階段,數據生產來源也從數據管理系統的被動數據演變為Web 2.0和移動終端的用戶原創數據,逐漸演變為當下大規模傳感器自動生成的數據,即大數據。[7]
數據生產方式上的變革使密集型數據環境成為大數據時代的標志。數據生產方式變革意味著傳統的調查統計小規模和結構化的數據集逐漸被自動生成、規模龐大、類型多樣且快速增長的數據流所替換,形成了數據密集型環境。這種數據環境首先體現為數據規模的龐大,大數據的龐大體量已經難以用兆字節或千兆字節來計算,而是需要以太(terabyte)甚至是拍字節(petabyte,等于1000太字節)為單位來衡量。此外,數據密集型的環境也體現在數據生產速度和結構多樣等多個方面。大數據不僅在規模上呈現出指數級增長,而且數據種類繁多,既有結構化的數字數據,也包括圖片、視頻、音頻、郵件、交易信息、社交網絡信息等非結構化數據,[8]這些數據不斷匯總形成了日益密集的數據環境。
在政治生活中,大數據的出現和運用使政治實踐場域進一步延展至數字化空間,產生了一些新的政治現象,成為大數據時代的政治學需要從學術層面進行回應的現實問題。例如,作為大數據的一個主要來源,新媒體在當代政治中的作用越來越大,為當代政治行為提供了重要的媒介和平臺,以“臉書”和“推特”等為代表的新媒體正成為影響政治實踐的重要力量。2010年“阿拉伯之春”的政治變革就是通過“臉書”和“推特”等新媒體逐漸放大,在醞釀、組織、爆發和升級等各個環節都發揮了關鍵作用,扮演著信息傳播、動員組織和全球呼應等重要角色。[9]此外,大數據的發展也正在推動國家與公民間關系的改變,使國家和政府治理產生了適應性變革。大數據作為顛覆性創新,深刻改變了國家權力與公民權利關系,不僅實現了“數據的民主化”,也推動著現代國家治理體系朝著高效、創新和透明的方向深度變革。[10]在這些現實變化中,一系列新問題、新現象和新趨勢不斷涌現,與小數據時代的政治學研究形成了顯著張力,構成了政治學研究吸納大數據并且與大數據形成交叉融合的現實動力。
將大數據運用于政治學研究,核心目的就是要以數據為驅動,將數據密集型環境中的政治實踐通過數據方式呈現出來,讓數據來呈現這些現象的基本規律和發展趨勢。這意味著它不是根據小樣本歸納理論抑或依據理論假設來通過數據進行檢驗,而是逐步處理給定的大數據集,以此來生成相關見解和預測。[11]這種方式與傳統政治學量化研究構成顯著差異。在傳統量化研究中,研究數據往往來源于科學調查統計,通過抽樣產生規模有限的數據,再根據相應理論假設,通過統計分析來對變量進行分析。而在大數據時代,數據的產生和利用無需抽樣,是覆蓋全局的,并不依賴“自上而下”的調查抽樣產生樣本,而是通過“自下而上”的方式自動建構形成了全局性數據,即通過“樣本即總體”(N=All)的形式覆蓋全局。[12]
因此,利用大數據來研究政治現象,能夠在一定程度上擺脫先入為主的概念、假設和理論,而是利用全局性數據,將數據中蘊藏的政治實踐模式及其內在規律客觀呈現出來。大數據不僅推動了社會處理信息的方式轉型,也對思維方式造成了影響。[13]在大數據政治學研究中,思維方式的轉變就集中表現為“數據至上”,它并不由數據創造者來賦予數據意義,而是從數據中挖掘意義。[14]因此,大數據時代生成了新的認識論,即尋求獲得“來自數據”的見解,而非通過分析數據來檢驗預設的理論。[15]
數據驅動使規模龐大、實時生成和多元類型的數據進入了政治學的研究視野,成為政治學研究的新型數據來源。密集型的大數據為政治學研究提供了更加全面和豐富的數據資源,擴大了數據收集的渠道和方法。[16]文本、聲音、圖像和視頻等結構化、半結構化和非結構化的原始數據都能夠被用于研究特定的政治現象。這些前所未有的數據有可能揭示之前被隱藏的“政治秘密”,增強我們對政治生活及其運轉規律的理解。[17]大數據的有效運用也能夠推動政治學研究議題和空間的擴展。這主要體現為越來越多的政治現象、政治過程和政治問題,都可能通過大數據的形式呈現出來,進入大數據政治學的研究范疇。大數據技術為以往“不可研究”或“難以研究”的問題提供了輔助分析手段,促使政治學研究與計算科學及網絡科學相結合,拓展了政治學的研究空間。[18]
(二)計算驅動
大數據政治學也是以計算為驅動的政治學研究。挖掘和呈現大數據中隱藏的規律和模式,需要與大數據配套的計算技術。大數據政治學也是社會科學朝著計算范式轉型過程中產生的分支領域,呈現出強烈的計算驅動特性。大數據一般具有維度高和結構復雜的特點,一般的數據分析技術難以有效分析,需要利用與大數據相適應的計算與可視化技術,才能從海量數據中挖掘有用的知識、規律和內在關系。為了實現這一目標,以有效分析大數據為導向的計算工具也得到了充分發展,包括分布式計算、云計算、機器學習和人工智能等技術在大數據采集、存儲、計算和可視化環節都有所運用。
社會科學朝著計算范式轉型形成了計算社會科學(Computational Social Science)的范式或學科。伴隨著數據收集、挖掘和計算等新興技術的出現及運用,社會科學研究領域,提出和研究問題的范式也正朝著計算方向轉型,研究者可以利用微觀、中觀和宏觀數據進行研究,社會科學研究范式正在向計算社會科學轉變。[19]大衛·拉澤爾(David Lazer)等發表了《計算社會科學》一文,呼吁利用移動互聯網數據研究人類社會行為和社會運行規律等問題,被視為計算社會科學成為獨立學科的重要標志。
大數據政治學是計算社會科學體系化發展過程中產生的分支領域。計算社會科學是基于系統科學、網絡科學、復雜性科學等科學理論,利用數據挖掘、人工智能等計算方法,以社會、經濟等領域大數據作為研究對象,是人類更深入地認識社會、改造社會,解決政治、經濟、文化等領域復雜問題的一種理論和方法體系。[20]它最核心的特征就是通過多元化計算技術實現對社會現象和社會問題的仿真、模擬和呈現。以語言、位置和運動、網絡、圖像和視頻等為對象,應用模型捕捉數據中的各種關系。[21]計算社會科學對傳統的調查、實驗等方式都有不同程度的改進。在調查方面,計算社會科學不再局限于問卷或訪談等方式,而是通過大數據和算法來對龐大的數據進行處理和分析,同時,由于數據更加完整、模型更加完善,人們很容易發現新的關系,催生了更多新興交叉學科和領域,從而拓展了計算社會科學的研究對象,[22]這種擴展表現為計算社會科學與特定的學科相結合,產生了計算社會學、計算傳播學、計算法學和計算政治學等具體分支。
學界通常將大數據政治學和計算政治學視為同義詞,在不嚴格區分的情況下,常常相互替換使用。大數據政治學不僅重視研究政治學時使用的大數據,同時還突出表現為處理這些數據時使用的計算方法,實際上吸納了計算政治學內涵。本文對大數據政治學與計算政治學不做嚴格區分。但是,實際上,計算政治學這一指稱更加突出研究方法,即通過計算大數據來研究政治現象,特別是有效地利用計算機語言和算法來進行科學化、自動化和智能化的計算過程。例如,西方學界提出的“計算政治科學”這一定義,不僅意味著需要對網絡、傳感器、通信、電子媒體或電子數據庫等計算機生成數據進行分析,而且也需要使用計算形式、邏輯和語言來描述和分析政治現象。[23]但在中文語境中,計算的范疇要比西方語境中的“計算”更廣,無法將計算政治學與統計政治學區別開來。
大數據政治學與計算社會科學共享著核心特征。在計算社會科學發展影響下,大數據政治學吸納了豐富的計算工具,形成了計算驅動效應。從20世紀90年代至今,計算社會科學已經形成了社會數據計算、社會模擬、互聯網社會科學實驗三種新方法。[24]以有效計算大數據為導向的技術、軟件和平臺發展也更加多元和成熟。在計算工具驅動下,政治學引進了一套嶄新的思維方法、分析路徑和解釋模式。[25]此外,機器學習算法的體系化延展也生成了各種智能化算法,如監督式學習、半監督式學習、無監督式學習、強化學習和深度學習算法,它們被用于大數據政治學研究當中。隨著這些計算工具的運用,大數據政治學研究也產生了多元化的分析手段,包括網絡爬蟲和搜索記錄的分析、自動文本分析、視頻和圖片分析、社會網絡分析、空間時間分析和可視化分析,等等。
除了提供計算技術支持,計算社會科學也深刻影響了大數據政治學的范式。學界普遍認為,計算社會科學既會加劇“讓數據說話”和“依賴理論假設”之間的對立,也能從這種范式爭論中找到平衡點,即綜合運用數據計算和理論假設模擬和闡釋復合社會系統及現象的規律。張小勁和孟天廣認為,計算社會科學盡管更為強調數據、模型、算法等計算維度,但它確實可被視為行為主義與后現代主義為代表的新理論的某種妥協和融合:首先,計算社會科學承認個體或群體層面的人類行為具有某些用行為主義研究范式難以覺察并加以研究的因素,但其處理方法,則是將此類因素分為潛變量和顯變量,盡管有些因素確實是難以直接測量和觀察的,但它們可被視為影響行為的潛變量,并以其外在表征的顯變量來呈現和測量。其次,計算社會科學承認人類行為的復雜性,認為抽象模型和變量不足以反映社會現象,但處理方法則是將大量變量納入分析中,變量豐富性及變量間復雜關系無疑超出了任何人類研究者進行純粹定性研究的研究能力,從這個意義上講,盡管人們將計算科學與“數據驅動”和“計算”等概念聯系在一起,但是計算社會科學范式確實是各種范式相互競爭、啟發及融合的結果。[26]
這種融合發展的范式特征也集中體現在了大數據政治學當中。大數據政治學呈現出較強的吸納性,而非排他性。其中,最為典型的就是越來越重視將相關關系和因果關系進行結合,更加合理地利用大數據計算來全面解釋復雜政治現象。大數據政治學越來越需要因果關系和相關關系相互結合且互為驗證,既在宏觀維度呈現出政治現象的相關性,也要基于因果關系理論來更加堅實地剖析內在機理??偟膩碚f,大數據政治學研究更側重于相關關系的挖掘,同時也致力于將因果關系容納進來,形成了大數據與統計方法、大數據與小數據分析、大數據與實驗研究、大數據模擬方法等多種生產和檢驗因果性知識的方法路徑,[27]呈現出以有效計算大數據為中心的融合發展趨勢。
通過上述分析,可以發現,大數據政治學的技術驅動特征集中體現于數據驅動和計算驅動兩個方面。數據驅動和計算驅動的特征也決定了大數據政治學的整體特色和發展路徑。在數據驅動方面,大數據為政治學提供了更具規模、更加多元和更加實時的數據來源,形成了數據密集的研究范式。而在計算驅動方面,計算社會科學的整體發展為分析和計算海量數據提供了更加豐富的工具體系和更具融合性的思維范式,致力于科學、有效且全面地從海量數據中挖掘潛在的規律和特征,并且致力于彌合大數據政治學和傳統政治學研究之間的張力,使大數據政治學更具開放性和包容性,吸納了更多的方法。大數據政治學正是在數據驅動和計算驅動雙重效應影響之下得以產生并不斷發展的,這兩個方面的技術驅動特征深刻影響著大數據的發展走向,也能夠成為追蹤大數據政治學研究動態的觀察視角。
(三)技術操作
在數據和計算雙重驅動之下,大數據政治學的議題和方法不斷擴展,突破了小數據時代政治學研究在材料和方法上的限度。一般而言,大數據允許更大的樣本量、更便捷和更廣泛的理論測試,并且能夠對政治學的概念和理論進行持續評估。[28]也有學者將大數據對政治學產生的積極影響進行了全面總結,體現為更便捷、廉價、大規模的數據采集,數據分析新方法的引入,定量與定性方法的整合,政治學與計算科學,信息科學等的跨學科研究,數據民主化所推進的政治知識平民化的傳播和普及。[29]從研究過程來看,數據和計算雙重驅動全面體現在了大數據政治學的技術操作流程上,以獲取和計算大數據為驅動,大數據政治學研究在技術操作層面上也不斷豐富和成熟。
在數據驅動的技術操作環節,大數據政治學已經形成了一些極富操作性和啟發性的技術手段,集中在數據收集和預處理兩個階段,這是兩個前后銜接且極為重要的環節。在數據收集環節,計算機和互聯網是主要渠道,利用數據爬蟲技術能夠快速獲取海量的互聯網數據,已經是大數據政治學獲取數據最成熟也是最有效的方法。同時,利用數字化的掃描、識別等技術,也可以比較方便地將大量文本資料轉化為文本大數據,例如,谷歌書籍搜索數據庫就是利用這種方式形成了龐大的數據庫,進而能夠分析人類知識結構與變遷規律,從而發現之前難以呈現的人類社會發展規律。此外,一些高科技工具,比如GPS應用帶來的海量空間信息數據、大量的衛星數據、人類在醫療過程中產生的大量數據,這些數據通過各種科技手段得到了記錄,日益累積成為海量數據,對于理解人類政治現象及其背后隱藏的規律也非常重要。通過上述方式獲取的大數據往往是結構混雜的數據,不僅包括結構化數據,也包括了大量的非結構化數據,同時還存在無法用來研究的數據。因此,在數據預處理環節,主要就是對數據進行清理,去除“噪聲數據”等各種無效數據,使收集到的大數據成為可研究的數據。
在計算驅動的技術操作方面,計算和分析大數據的技術也日新月異,產生了一系列非常實用的操作方法。計算大數據的主要目的是利用各種算法和軟件來挖掘大數據當中蘊藏著的關聯,根據數據之間的關系來對政治現象及其規律進行描述、分析和預測。這種操作流程將使政治學研究從重視經驗觀察、理論假設和虛擬計算轉向重視反映政治現象與政治生活中的各種原始數據,即通過智能設備將政治生活中的一切都轉換為數據,通過大數據來描述復雜的政治現象,而且通過數據挖掘的方式來發現各種政治現象之間的關系,并通過圖表等可視化手段把復雜的政治關系形象地表現出來。[30]在數據分析環節,常常會根據需要來進行更具針對性的操作。例如,對數據進行描述分析,以便掌握數據的基本特征;對數據進行質性的扎根分析,獲取數據的基本維度;對數據進行可視化分析,以便掌握數據的特性;甚至可以對數據進行抽樣,對非結構化的數據進行結構化的操作,使得數據能夠進行統計操作;等等。這方面的分析技術層出不窮,不斷地迭代更新,使大數據更易被計算和分析,增強了可操作性。
數據驅動和計算驅動使國內外政治學學者越來越多地利用大數據來研究政治問題,形成了大數據與政治學的交叉融合,產生了極具規模性的研究成果,反映了大數據政治學的發展路徑和最新動態。根據大數據政治學研究的學術演進,結合大數據本身的類型,我們發現,大數據政治學在發展過程中產生了較為穩健的分析模式,即基于大數據的文本分析、時空分析和網絡分析,國內外學者在利用這些模式研究實際問題時,發展出了更加多元的具體模式,擴展了大數據政治學的方法與議題(見表1),也使大數據政治學圍繞著這三類分析模式形成了方法、議題和觀點的聚類。
表1 大數據政治學的分析模式
