官术网_书友最值得收藏!

陳金燕.?從文本到社會知識:基于文本的社會科學研究綜述[M/OL]//趙聯飛,趙鋒.社會研究方法評論:第1卷.重慶:重慶大學電子音像出版社.

從文本到社會知識:基于文本的社會科學研究綜述

陳金燕[1]

摘要基于文本的社會科學研究本質是使用特定方法將文本轉換為知識;本文將綜述相關方法及其在社會科學中的應用首先,本文將簡要回顧從文本中獲得社會知識的思想基礎,討論為何文本能用于研究社會現象;然后,本文系統梳理文本分析方法包括作為語言符號和作為數學表示的兩類方法回應已有研究偏數學而輕語言的現狀;接著,本文根據分析方法總結出不同的分析任務并進一步整理與分析任務對應的學科研究議題,包括社會學、政治學、公共管理新聞傳播、經濟學、金融學和公共衛生七個學科。

關鍵詞文本分析;語言符號;數學表示;計算社會科學

Abstract:The?essence?of?text-based?social?science?research?is?to?use?specific?methods?to?transform?texts?into?knowledge.?This?article?will?review?computational?text-based?methods?and?their?applications?in?social?science.?Firstly,?I?briefly?review?the?reason?why?we?can?extract?knowledge?from?texts.?Then?I?survey?methods?of?text?analysis,?including?linguistic-based?and?mathematics-based.?Afterwards,?I?summarize?eight?tasks?in?consideration?of?the?characteristic?of?methods,?and?their?applications?in?social?science.?

Key?words:?text?analysis;?linguistic?sign;mathematical?language;computational?social?science

一、引言

用文本研究社會現象的本質是將文本轉換為社會知識。研究開始前需要思考三個問題:一是為何文本能用于研究社會現象;二是有哪些文本分析方法;三是怎么將分析方法與學科研究對象結合起來。

文本之所以能夠用于研究社會現象,是因為文本是人類知識和記載人類社會進程的最主要的載體之一,記錄了個體和集體的觀念、行為和互動過程,呈現了廣泛而細致的社會生活景象。文本既存在于呈現線上社會生活的社交媒體、即時通信中,又存在于為方便傳播和存檔而電子化的新聞報道、法律政策文本、電子書籍、轉錄的視頻文本、醫療記錄中。在當前計算機和互聯網的發展浪潮中,文本數據量出現了爆炸式增長,為學者提供了豐富的觀察社會現象的經驗材料。

為了從文本中挖掘出知識,學界發展了許多分析方法;除了質性研究法中的文獻閱讀法、內容分析法等,目前主要發展的是文本的數學表示及其模型,例如詞頻—逆文檔頻率(term?frequency?-?inverse?document?frequency,tf-idf)、主題模型(topic?model)、詞嵌入(word?embedding)等。但較少研究關注文本的語言符號意義,事實上它們也具有豐富的社會科學價值,已經發展出語義場、詞類、詞組、句法分析等方法。這些方法將文本中的社會痕跡(traces)轉化為有價值的數據(Grimmer?&?Stewart?,2013),呈現了不同類型、不同細粒度的社會信息,形成了社會科學研究的分析基礎。

分析方法與學科結合的方式是,將文本轉換得到的數據,通過某種應用思路來回答研究議題。已有綜述主要從兩方面總結應用思路——社會科學整體和單一學科。整體上,James?&?Aceves(2016)依據社會世界的層次(layers)提出“集體注意力和推理(內容層次)、社會互動(過程層次)、社會狀態/角色/變遷(信號層次)”的應用思路。Berger?等(2020)區分了文本生產者和文本接收者,并在此基礎上依據學科特點提出了4類主體——消費者、公司、投資者、機構/社會之間的互動分析思路。單一學科方面,Gentzko?等(2019)總結了政治學的應用思路——劃分已知/未知文本類型、獲得政策文本主題、預測文本生產者、測量行動者的政治空間位置等。沈艷等(2019)提出經濟學和金融學的分析思路,前者主要用于刻畫經濟政策不確定性、對行業進行分類、預測經濟周期、度量媒體報道偏差、量化央行政策溝通內容等,后者用于建構投資者/媒體關注度、測量投資者/媒體/管理層情緒、度量文本可讀性/復雜性、測量金融市場不確定性、構建投資者分歧指數等。但這些總結要么過于抽象,難以應用到各個學科來啟發新的研究議題;要么過于具體,較難啟發其他學科的研究路徑;同時較少提及與分析方法間的聯結。

本文將嘗試在方法上總結數學表示和語言符號表示兩類方法,回應已有研究“偏數學而輕語言”的現狀;在應用方面,總結與方法直接對應的分析任務,及其對應的各學科研究議題,從而縮短方法與研究議題間的思考距離;在此之前,也會簡要回顧文本用于社會科學分析的思想基礎。具體而言,本文分為四個部分:第一部分簡要回顧從文本中獲得社會知識的思想基礎,包括文本為何能夠呈現社會世界、文本為何能夠作為語言符號系統和數學表示進行分析。第二部分系統回顧文本分析方法,一是文本作為語言符號系統的分析方法,包括詞語層次和句子層次,涉及詞類、詞法范疇、句法分析、會話分析等;二是文本作為數學表示的分析方法,包括數值特征類、分類/聚類、網絡、矩陣/向量空間四種主要類型。第三部分討論如何在具體研究議題中運用分析方法,首先根據分析方法總結出不同的分析任務,再整理與分析任務對應的學科研究議題。第四部分是討論和反思。

二、從文本到社會知識的思想基礎

(一)文本中的社會世界

文本能夠呈現社會世界。“語言是存在之屋”(Heidegger,1946),即事物的“存在”呈現在人們所締造出來的語言或文字之中,最后人們所建構的“實在”,變成了“實在自身”。而建構的實在,既包括“生活世界”(life?world),又包括科學家建構的“微世界”(microworld)(Wallner,1994;黃光國,?2006)。文本能捕捉社會世界的變化,這是因為文本的誕生是為了方便記錄和傳播,與社會關聯密切,使得社會生活的變化或多或少能夠反映在語言中(陳原,1983)。

文本能夠反映不同顆粒度的社會信息。維特根斯坦(1996)提出,世界與語言間的關系是一一對應的,它們中的層級關系也是一一對應的。文本既呈現了現實世界粗粒度的內容,例如新聞報道的社會事件文本、社交媒體文本反映的情緒,又能捕捉細粒度的信息,如美國社會語言學家Nessa?Wolfson(1983)所說的,文本呈現了“說話人對聽話人,在什么時候,以怎樣的方式,說了什么”(Who?says?what?to?whom,when?and?how)的微觀互動情況。

(二)社會世界的表示:語言符號和數學表示

社會世界在文本中主要有三種呈現形式,本綜述主要討論后兩種。第一種是非結構的、直接呈現的文本;第二種是帶有社會意義的語言符號,例如表達人和事物的名詞、表現說話人情緒的句子類型(陳述句、疑問句、祈使句、感嘆句等);第三種是抽象表示的數學符號,例如呈現人們認知空間的詞嵌入(Garg?et?al.,2018)、呈現人們關注內容的主題概率分布(Farrell,2016)等。

從發展緣起看,文本、語言和數學三者具有天然的相通性。雖然它們在人類歷史的發展中曾經一度分道揚鑣,但隨著自然語言處理和計算社會科學的發展,最終仍然走到了一起(吳軍,2012)。具體而言,文本(文字)、語言和數學的本質目的在于傳遞信息。其中,文本是語言的書寫符號系統,具有語言的詞義、句法等屬性,而數學能夠表示和度量文本和語言中的信息,建立起可計算的信息系統(即香農信息論的思想)。

與呈現形式相對應,學者主要采用三種方式來挖掘文本背后的社會世界。一是將自己作為方法的定性研究法,研究者自身對文獻資料、網絡民族志文本進行閱讀、理解和分析;二是將其作為人類語言,分析其形式、含義和語境等,沿著語言學的思路來理解社會;三是將其轉換為數學表示,試圖通過計算和統計等方法來挖掘背后的社會知識。

文本能夠呈現社會世界,并且除了非結構化文本以外,主要有語言符號和數學符號兩種表示,那么下面將總結兩種表示相關的文本分析方法。

三、作為語言符號的文本方法

文字是記錄語言的書寫符號系統,其背后具有豐富的社會屬性。作為語言符號的文本分析方法主要分為兩類:詞語層面和句子層面,后者較前者的信息更為豐富。

(一)基于詞語層面的語言符號

詞語層面包括詞語的指代對象、語義場、詞類和詞組等方法。指代對象是詞義所指代的具有意義的對象,例如人、事件、工作名稱、性別等,使用命名實體識別(Named?Entity?Recognition,NER)等方法,將指代對象組合起來,計算詞頻或構建指標,進而做統計分析。例如Elizaveta?Sivaka?和?Ivan?Smirnov(2018)用網絡帖子中不同群組提到“兒子”或“女兒”的比例,以及提到孩子的平均次數、帖子獲得的“喜歡”數量等信息,分析社交網絡環境是否會通過獎勵帶有性別、孩子的帖子來強化性別偏見,發現男性和女性在微博中提到兒子的頻率都高于女兒,一定程度上表明性別不平等可能在人生早期就開始了。

語義場采用了義素分析法,通過不同詞語間基本語義單位——義素的共性和差異性來呈現語義空間中的結構。主要的常用義素/義原知識庫包括知網的HowNet,呈現了“義素/義原—詞義—單詞”的三層語義結構關系;語義場的分析既需要義素分析法,也需要網絡分析法。基于“共詞化”(colexification),即同一詞表達不同含義的現象的假設,Joshua?Conrad?Jackson?等(2019)通過詞語背后的情緒概念網絡,分析不同語系在情緒網絡上的共性。

詞類是語言的語法分類,即根據語法特征(包括句法功能和形態變化)為主要依據,兼顧詞匯意義對詞進行劃分的結果,主要運用詞性標注法(Part-of-Speech?tagging,POS?tagging)。中文詞類可分為兩大類,實體和虛詞;實體又包括名詞、動詞、形容詞、數詞、量詞、代詞、區別詞等,虛詞則包括副詞、介詞、連詞、助詞、嘆詞、語氣詞、擬聲詞等。研究者可根據詞類特征構建指標,用于測量社會特征或理論概念。例如Kayla?N.?Jordan?等(2019)用虛詞建構了分析性思維和自信的測量指標,前者為“冠詞+介詞-代詞-助動詞-副詞-連詞-否定句”并標準化,后者為“我們+你/你們-社會類詞-我-臟話-否定詞-區別詞(differentiation?words)”并標準化;他們發現,在過去一個世紀里,在與公眾的互動中,領導人分析性思維下降,自信力上升。

詞組是由兩個或多個詞組成的語言片段,相較詞語本身有更豐富的信息。例如龔為綱等(2019)計算了與“of?China”相關的詞組頻數,發現“rise?of?China”“against?China”“threat?of?China”是出現頻數最大的詞組;他們認為,這說明當前美國涉華公共輿情的總體特征是“中國崛起和應對中國崛起的中國威脅論”。

(二)基于句子層面的語言符號

句子層面的分析方法包括句法分析、句子功能及語氣和會話分析等方法,相較詞語層面的分析方法有更豐富的信息。

句法分析指的是從句子層面對詞語的語法功能進行分析,包括分析句法結構(如主謂賓結構)和詞匯間的依存關系(dependency?parsing)(如并列、從屬等)。例如Cristian?Danescu-Niculescu-Mizil?等(2013)用語義和句法特征建構禮貌分類器,如以“你”開頭的句子結構是不禮貌的,表現為“你應該”(You?need?to)。Philip?Bramsen等(2011)使用了詞義和句法特征等,建構權力關系分類器(向上級、向下級、平級)。丘心穎等(2016)用完整句子(含有主謂結構)的占比、基礎詞匯占比和漢字筆畫數等構建年報文本的可讀性指數。句法中的語序也能夠進行分析。如Michael?Hahn等(2020)分析了51種語言的實際語序和反事實語序,用模型衡量它們的交際效率和認知效率,發現人類語言語法的共通部分似乎找到二者間的平衡:既要簡單到讓說話者能夠輕松地造出句子,又要復雜到讓聽者能夠清楚地理解。

句子功能和語氣的分析是以意義為基礎、以語氣為標準進行句子分類,可呈現句子背后的邏輯認知和情感態度,使用語氣詞識別或分類算法。例如Xiaoying?Wang?和?Xiaonan?Zhu(2017)基于句子的語言風格反映了作者特有的邏輯認知和態度的假設,提取和分析語言特征,包括陳述句、疑問句、感嘆句的比例,來預測文本作者。

會話分析基于常人方法學(ethnomethodology)(Garfinkel,1967)和符號互動理論(Goffman,1967)發展而來,用于研究語言的交際互動,分析對象包括日常生活會話和機構會話,后者包括醫患會話、法庭控辯雙方會話等。例如Gabriel?Doyle等(2016)用文本測量推特互動中的語言協同(linguistic?alighment),即一個人的語言使用多大程度受另一人影響,呈現了日常會話中權力的作用過程。

四、作為數學表示的文本方法

數學表示的文本分析方法分為四種類型:一是數值特征,通過計算方法將文本轉換為頻數/頻率、特殊指標和文本表示等;二是分類和聚類,用分類和聚類算法獲得文本類別;三是網絡方法,又分為網絡建構和分析,網絡類型(包括基于詞性、依存句法等的網絡)用一種或多種類型的節點建構一?;蚨嗄>W絡和呈現知識和事件關系的知識圖譜和事理圖譜,而分析方法包括基于節點/邊的分析和基于子圖的分析;四是矩陣/向量空間,包括主題模型及其擴展模型、詞嵌入等。

(一)數值特征類方法

頻數指某對象在文本中出現的頻數,其對象可以是特定屬性的詞語、特定詞類(如名詞)等;相對頻數則是該對象頻數占文本詞語總數的比例,用于描述屬性或詞類等對應社會特征的基本情況。其中有兩種主要應用思路:一是社會特征隨時間的變化。例如Jean?Baptiste?Michel?等(2011)用谷歌圖書語料庫分析關鍵詞的使用頻率變化,呈現了1800年到2000年英語世界中的語言和文化現象,并將這類工作稱為“文化組學”(culturomics)。陳云松(2015)沿著這一思路研究了19世紀中期以來社會學的發展歷程,包括學科軌跡、名家大師、理論流派、領域熱點、分析方法和中國社會學的文化影響力。二是使用字典,計算文本中每一類詞匯的出現次數,從而獲得文本不同類別的得分,可根據文本情況加權處理,又被稱為字典法(dictionary?methods)。研究者既可以根據研究目的整理字典,也可以用公開的發展較為成熟的字典。字典法常被用于測量情緒、價值取向等。例如Elizabeth?E.?Bruch?和?M.E.J.?Newman(2018)、Scott?A.?Golder?和?Michael?W.?Macy(2011)和Karthik?Sheshadri?和?Munindar?P.?Singh(2019)等學者從語料庫中提取情感詞匯,并用其出現頻率測量個體情緒或新聞框架的極化指標。Koen?van?Bommel(2014)用社會學價值(sociology?of?worth,SOW)字典測量了工業、市場、市民、綠色領域的價值取向。較常使用的分析工具是語言獲得和詞匯計數(Linguistic?Inquiry?and?Word?Count,LIWC)方法,能夠將詞匯歸類到多個預設類別中,例如語言類(人稱代詞、連詞等)、心理類(生氣、焦慮等)(Pennebaker?et?al.,2001)。Ashlee?Humphreys?和?Rebecca?Jen-Hui?Wang(2018)嘗試整理了部分標準字典,包括通用類、消費類、心理類、情感類、社會類字典。

特殊指標指根據特定計算方法獲得的指標。本文主要介紹政策立場和可讀性。政策立場可用詞語得分(wordscores)和詞語縮放(wordfish)方法,一定程度上前者是有監督的,后者是無監督的。詞語得分由Laver?等(2003)提出。其基本思想是:每個詞語反映了不同程度的政策立場,即權重得分;通過計算詞語權重得分的平均值,獲得文本的政策立場。基本步驟是:將文本分為參考文本(reference?text)和待處理文本(virgin?text),并分詞;給參考文本設置政策得分;基于詞語的條件概率分布,用參考文本的政策得分計算詞語的權重得分;用詞語的權重得分計算待處理文本的立場得分。詞語縮放(Slapin?&?Proksch,2008)則是假設各政黨在各文本中詞語的相對頻率能夠反映他們在政策空間中的位置。如果在經濟政策中,一個政黨使用“發展”(詞語)的頻率高于“穩定”(詞語),而另一個政黨使用“穩定”(詞語)的頻率高于“發展”(詞語),那么這兩個詞語一定程度上反映了經濟政策維度的政黨立場。例如許鑫等(2013)用wordscores計算政策文本在經濟價值、科技價值和社會價值3個維度的得分。Sven?Oliver?Proksc?和?Jonathan?B.?Slapin(2009)用wordfish分析德國各黨派的競選文本,呈現了各黨派的政策立場從1969年到2005年的變化,發現所有黨派位置的變化趨勢相似,體現了較強的政策議程效應。Gentzkow?和?Shapiro(2010)的思路與wordfish類似,先從文本中獲得與政策立場高度相關的1000個短語,根據這些短語的文本分布和文本的立場標簽,回歸得到最能預測立場標簽的短語及其回歸系數,由此計算報紙的政策立場。可讀性(readability)指標表明文本的閱讀難度,由詞語數、句子數、句子長度、圖表數和文本大小、復雜詞語占比等特征計算獲得。Gunning(1952)提出迷霧指數,即用平均詞語長度和復雜詞語占比測量,后被金融學用于分析上市公司的年報;John?S.?Caylor?和Thomas?G.?Sticht(1973)專門提出了工作閱讀材料的可讀性指標,這啟發我們可以根據不同的研究需求或自己設定可讀性指標,探討與文本信息傳達效率相關的研究問題。

文本表示,指的是將文本轉換成計算機可理解的表達,單篇文檔表示為向量,整個語料庫表示為矩陣。它較少直接用來分析問題,而是作為其他分析方法(分類/聚類算法、主題模型、神經網絡等)的基礎。主要包括獨熱表示(one-hot)、詞袋表示(bag?of?words,BOW)、n-gram表示、標準化頻率表示和特征權重表示等。One-hot只表示術語出現或不出現在文本中;BOW提供了術語在單個文本中的出現次數,可以進行標準化;n-gram是按長度n從文本中切分得到的詞段。特征權重一般有布爾權重(即獨熱表示)、tf-idf型權重和基于熵概念權重等。Tf-idf為詞頻-逆文檔頻率(term?frequency–inverse?document?frequency);其主要思想是:如果某個詞或短語在一篇文章的出現頻率高,在其他文章的出現頻率低,那么這個詞或短語具有很好的類別區分能力?;陟氐臋嘀貙⒊霈F在同一文檔的特征賦予較高權重。這些表示方法對分類、聚類等算法的表現有重要影響,因而文本預處理時應注意哪一種表示更適合。

(二)分類/聚類方法

由于分類和聚類方法都是用于獲得類別信息,因此本文歸為一類;區別在于分類方法是有監督的,聚類方法是無監督的。

分類方法的目的是根據給定文本的類別標簽推斷其他文本的類別,核心方法思想是提取分類數據的特征,然后選擇最優匹配實現分類。方法包括淺層學習模型和深度學習模型兩種。淺層學習是基于統計的模型,包括樸素貝葉斯(naive?bayes,NB)、k近鄰(k-nearest?neighbor,KNN)、支持向量機(support?vector?machine,SVM)、決策樹(decision?trees,DT)、隨機森林(random?forest,RF)等。深層學習模型則包括FastText、TextCNN、TextRNN等,它避免了人工特征工程的工作。

文本分類的主要流程為:預處理文本數據,將文本轉換成向量表示,例如詞袋表示、n-gram表示等;如果用淺層學習模型,需人工進行特征工程,再用SVM和NB等經典算法分類,分類效果很大程度受特征工程的質量影響,如果用深度學習模型,則通過學習一組非線性變換將特征直接集成到輸出中,從而將特征工程集成到模型擬合過程,這一過程需根據數據情況選擇模型和使用交叉驗證等方法調優;用準確率(accuracy)、精確率(precision)、召回率(recall)、F1分數、微F1分數(micro-F1)等評估模型效果;將訓練好的模型用于預測分類標簽,包括情緒、主題和其他分類變量(Li?et?al.,2020)。

文本分類流程圖(Li?et?al.,2020)

聚類方法在預先不知道類別的情況下,對比若干文本的相似度,最后將相似度高的歸為一類,其本質是以無監督的方式基于一定規則獲得文本的類別。目前聚類算法主要分為六類:基于劃分(partition)的聚類算法、基于層次(hierarchy)的聚類算法、基于密度(density)的聚類算法、基于網格(grid)的聚類算法、基于圖論(graph?theory)的聚類算法和基于模糊(fuzzy)的聚類算法等(Saxena?et?al.,2017)。其中,基于劃分的聚類目標是類內數據盡可能相似,類間盡可能不同,其代表方法是k均值(k-means)算法。k-means的基本思想是:根據一定策略選擇k個點作為每一類的初始中心。然后將剩余數據劃分到距離這k個點最近的類中,然后在新生成的類中重新計算每一類的中心點,再重新劃分,直到每次劃分的結果保持不變(如果很多次迭代仍無法保持不變,則設置最大迭代次數)?;趯哟蔚乃惴ǜ鶕垲惖姆较蚍譃槟凼胶头至咽?,前者“自底向上”,后者“自頂向下”。各類算法在魯棒性、精確度和計算量等方面存在差異,需根據文本情況和算法效果來選擇合適的算法。聚類算法常見的評價指標有純度(purity)、蘭德系數(Rand?index,RI)、F值(F-score)和調整蘭德系數(adjusted?Rand?index,ARI)等。

在實證研究中,研究者可用分類和聚類方法獲得文本類別,然后進一步對每一類別做描述性分析,或者作為分類變量使用等。分類和聚類算法也可以用來識別情緒和政治立場類別。Eytan?Bakshy等(2015)用SVM分類器基于文本的一元表示(unigram)、二元表示(bigram)和三元表示(trigram)來分類“硬性”內容(國家新聞、政治、全球事務等)和“軟性”內容(運動、娛樂、旅游等)。Meysam?Alizadeh等(2020)用分類算法基于n-gram、URL等文本特征實現了5個分類任務。Marlon?Mooijman等(2018)人工編碼了4800個推文的道德標簽(“道德”和“不道德”),訓練深度神經網絡,然后用它預測1800萬推文的道德標簽。Hoberg?和?Phillips(2016)用聚類算法基于上市公司的產品介紹文本提出新的行業分類法,最終得到300個行業分類;而且,這個分類與標準行業分類體系(SIC)和北美行業分類系統(NAICS)數量一致。

(三)基于網絡的方法

1.?網絡類型

(1)基于詞類、句法等的網絡

基于詞類、句法的網絡是通過分析句子成分間的關系建構起來的;其方法包括詞性標注、命名實體識別、依存句法分析和指代消解(Coreference?Resolution)等。詞性標注法賦予句子中每個詞語其詞類標簽,例如名詞、代詞等;其中主要有基于規則的、基于統計模型的、基于統計方法與規則方法結合的、基于深度學習的四類標注方法。命名實體識別用于識別文本中具有特定意義的實體,包括人名、地名、機構名、專有名詞,以及時間、數量等;主要有基于規則的、基于統計模型的、基于深度學習的、基于attention的四類方法。依存句法分析能夠分析句子的句法結構;其基本假設是:句法結構本質上包含詞和詞之間的依存/修飾關系,依存關系連接核心詞(head)和依存詞(dependent);依存關系可以分為不同類型,反映兩個詞之間的具體句法關系,例如主謂關系(subject-verb)反映名詞和動作間的關系、動賓關系(verb-object)反映動詞和賓語之間的關系。指代消解能夠在文本中確定代詞指向哪個名詞短語。例如在句子“小明和他同學出去打籃球”中識別出“他”指代“小明”。

基于詞類、句法等的網絡能夠通過細粒度的信息分析社會知識。例如John?W.?Mohr等(2013)用詞語間的依存關系網絡來識別國家安全戰略中的動機結構,采用的語料庫為1990年到2010年美國國家安全戰略文本,基于文本中的行動主體(國家/地區/組織等)、行動、行動對象、情境間的網絡結構及其隨時間的變遷來觀察戰略動機。

(2)一?;蚨嗄>W絡

一模或多模網絡指的是一種或多種類型的節點形成的網絡,使用共現分析等方法進行構建。一模網絡是最為普遍的網絡類型,例如人與人之間的社交網絡、詞與詞之間的共現網絡。多模網絡在研究中應用較少,卻能夠很好地呈現某類型的節點與其他類型節點間的聯系,如人—主題網絡,分析時能夠涵蓋多個類型的節點信息及捕捉它們之間的關聯信息;某種程度上,多模網絡更能夠呈現社會現象和關系的復雜性。例如Alix?Rule等(2015)用與“憲法”(constitution)詞匯共同出現的其他詞匯建構詞共現網絡,考察了從1790年到2014年美國國家話語的變遷。王戈等(2017)建構了“參與者—事件”二模網絡,分析了線上意見領袖的網絡結構及信息流動情況。

(3)知識圖譜和事理圖譜

事理圖譜和知識圖譜分別用事件和實體概念的網絡呈現社會世界的事件知識和概念知識,能夠直接刻畫社會的知識網絡,涉及命名實體識別、實體關系抽取等方法。事理圖譜(event?logic?graph,ELG)是一個描述事件之間順承、因果等關系的事理演化邏輯有向有環圖,被用于揭示社會現象中事件的演化規律和邏輯,?刻畫和記錄人類行為活動(劉挺,?2017;?Ding?et?al.,2019)。節點表示抽象、泛化的事件,一般為謂詞短語,例如“吃火鍋”“去機場”;有向邊表示事件間的邏輯關系,一般包括順承關系、因果關系,復雜情況下還包括條件關系、上下位關系等。知識圖譜由Google在2012年提出,其本質是語義網絡的知識庫;節點是現實中的事物實體,例如人、地名、概念、公司等,連邊是不同實體間的聯系,例如“性格”是“人”的屬性、“社會互動”是“人”的行為等(A.?Singhal,2012)。已有學者嘗試用圖譜進行社會科學研究,例如單曉紅等(2019)用事理圖譜建構醫療輿情圖譜,抽象出“疫苗問題→監管監督→醫鬧”演化路徑,由此提出有效的市場監管可以幫助減少醫鬧等事件發生的觀點。Lei?Cao等(2020)用新浪微博數據集中有自殺和無自殺意念的用戶文本建構了個體知識圖譜,包含個人信息、性格、經歷、發博行為、情緒表達和社會互動六類本體,用于預測自殺傾向。

2.?網絡分析

(1)基于節點/邊的分析

基于節點/邊的分析研究文本各類型網絡的統計指標屬性,包括節點、邊、網絡整體三個方面,可用于了解詞語共現網絡、“人—事件”二模網絡等的描述性分析。對于節點,中心性(centrality)是最重要的指標之一,衡量了節點在網絡中的重要性;因分析目的不同,存在多種類型的計算方式。例如度中心性(degree?centrality)假設重要的節點就是擁有連邊多的節點,測量方式為與節點直接相連的連邊數目,在有向圖中還區分入度和出度。接近中心性(closeness?centrality)假設節點的重要性表現為它到其他節點的最短距離的大小,測量方式為節點與其他節點之間的最短路徑的平均長度。中介中心性(betweenness?centrality)認為如果一個節點處于許多其他兩點之間的最短路徑上,因為它能夠“控制”兩個節點間的聯結,可以認為處于重要地位;測量方式為計算該節點出現在任意其他兩節點最短路徑上的數目,還可以進行標準化處理。連邊則有方向、權重等屬性。網絡整體的中心性屬性,即集中趨勢(centralization),通過計算節點的中心性的差異性程度獲得。例如Steven?R.?Corman等(2002)用詞語網絡中節點的中心性來衡量詞語的重要性,分析日常話語如何影響人們的其他活動。陳華珊(2015)根據論壇用戶的互動情況和議題內容建構了三個議題網絡——社區參與、趣緣和一般議題,并進一步對比了三個討論網的模塊度(modularity)、子群數和中心度等。

(2)基于子圖的分析

基于子圖的分析包括基于社區(community)和基于模體(motif)兩種類型,前者指用社區探測(community?detection)方法從文本網絡中識別出社區,社區由一組連接緊密或具有相似特征的節點組成;模體是網絡的基本拓撲結構之一,是具有統計意義的子圖/結構,大小介于節點和社區之間,一般由少數幾個節點連接構成,能夠呈現節點間的基本連接模式,例如分析時統計4個節點星結構(star)或鏈結構(chain)的模體的數量。Chris?Biemann等(2016)建構了多種語言的詞類網絡,發現動詞和其他詞類的共現圖呈現出明顯不同的模體結構。

(四)基于矩陣/向量空間的方法

基于矩陣/向量空間的方法主要包括主題模型及其擴展模型與詞嵌入兩種。這種方法能較好地捕捉更深層次的語義信息,從而可劃分主題、衡量詞語的語義空間等。

1.主題模型及其擴展模型(topic?models?and?extension?models)

主題模型是發現文檔隱含的語義結構的統計模型,主要包括潛在語義分析(latent?semantic?analysis,LSA)(Deerwester?et?al.,1990)、概率潛在語義分析(probabilistic?latent?semantic?analysis,pLSA)(Hofmann,1999)和隱含狄利克雷分布(Latent?Dirichlet?Allocation,LDA)(Blei?et?al.,2003);其基本假設是每個文檔包含多個主題和每個主題包含多個單詞。以LSA為例,分析步驟是:生成文檔—詞語矩陣,矩陣中的計數可以是頻數(第j個單詞在第i個文檔中的出現次數)、tf-idf等;使用截斷奇異值分解(SVD)將矩陣分解為三個獨立矩陣的乘積,即矩陣M=U*S*V,其中U表示文檔和主題的相關度,S表示主題和詞義的相關度,V表示詞和詞義的相關度。Fridolin?Wild(2007)提供了在R軟件上的操作說明。pLSA采取概率方法應對LSA難以直觀解釋的問題,而LDA則是pLSA的貝葉斯版本,即使用狄利克雷先驗來處理文檔—主題和主題—詞語分布。由于LDA的模型表現較好,目前使用較為廣泛。

根據研究議題的需求,LDA隨后被擴展為動態多主題模型(dynamic?multitopic?model,DMM)(Quinn?et?al.,?2010)、議程表達模型(expressed?agenda?model,EAM)(Grimmer,2010)和結構主題模型(structural?topic?model,STM)(Roberts?et?al.,2014)等。DMM假定每一個時間段都是主題的混合體,每個文本分配到一個主題,類似于單個單詞分配到?LDA?中的主題,因而可被用來推測每天的文本分配到各個主題上的比例。EAM假設每個人在多個主題中分配自己的注意力,由人的主題分配比例來構成文本的主題,因而可用于衡量人對各主題的關注度,例如新聞報道中議員匯報工作時的主題分布(Grimmer?et?al.,2012)。DMM和EAM可結合到一起,例如分析參議員關注的主題如何隨時間變化。STM能加入協變量(例如文本類型或時間),并給出協變量條件下某主題的概率分布,可用于分析主題與協變量的關系。

Justin?Farrell(2016)用LSA分析了不同氣候組織的主題,進一步探討了它對新聞媒體和官僚政治的影響。黃榮貴(2017)用LDA分析了勞工議題的微博文本,提取了多個主題,包括工人文藝、春晚與公益、職業病、城市融入、農民工問題等。Derek?Greene?和?James?P.?Cross(2017)用DMM分析了歐洲議會全體會議的政治議程是如何隨著時間的推移演變的。Grimmer(2012)用EAM分析了2005年到2007年的參議會新聞公報,發現參議員表達優先性的差異取決于自身如何平衡立場和誠信,有的優先闡明立場,有的優先獲得信任,有的則采取了更均衡的方式。Christopher?A.?Bail(2016)用STM分析了器官捐贈組織的社交媒體文本的主題變異系數對受眾認可程度的影響。

2.?詞嵌入(word?embedding)

詞嵌入技術將自然語言的詞投射到向量空間中,語義相近的詞會有相似的向量表示。One-hot可以看作最簡單的詞嵌入方法。詞嵌入的經典模型包括詞向量(Word2Vec)(Mikolov?et?al.,2013)、基于全局詞頻統計的詞表示(global?vectors?for?word?representation,GloVe)(Pennington?et?al.,2014)、基于語言模型的詞向量(Embeddings?from?Language?Models,ELMo)(Peters?et?al.,2018)和基于Transformers的雙向編碼器表示(Bidirectional?Encoder?Representations?from?Transformers,Bert)(Devlin?et?al.,2018)等。詞向量的核心思想是通過詞的上下文得到詞的向量化表示,主要有兩種方法:通過附近詞預測中心詞(Continuous?Bag-of-Words,CBOW)和通過中心詞預測附近詞(skip-gram)。訓練后的模型將每個詞語投射到低維空間中(一般為100-1000維),詞語在每一維上的投射表示為連續數值,研究者可以計算詞語間向量表示的相似度來測量語義間的相似程度。由于詞向量只考慮詞的局部信息,Pennington等(2014)提出GloVe模型,利用共現矩陣同時考慮局部信息和整體信息。然而word2vec和GloVe無法處理一詞多義問題,即同一詞語在不同語境下被表示為相同的向量;為應對這一難題,Matthew?E.?Peters等(2018)提出利用語言模型學習復雜的詞語特征和這些特征基于上下文的變化,詞向量從靜態轉向動態。Bert則大大改變了自然語言處理(Natural?Language?Processing,NLP)規則,從僅僅預訓練詞向量來初始化NLP模型的第一層,轉向預訓練整個NLP模型;也就是,不再僅關注單個詞匯,還關注句子級別的信息,能夠更好地捕捉文本語義信息。

詞嵌入可以用來測量觀念,反映人們對特定事物的認知和不同事物間的認知差異。在社會學領域,Aylin?Caliskan等(2017)用詞嵌入模型復制了由內隱聯想測試(implicit?association?test,IAT)測量的已知偏差,例如姓名/職業(詞匯)與性別(詞匯)的向量相似性,與調查數據中該姓名/職業的女性比例存在顯著正相關,證明了文本語料庫真實地呈現了社會偏見。Nikhil?Garg等(2018)用詞嵌入展示了20世紀和21世紀美國對女性和少數族裔的刻板印象和態度,將計算詞向量得到的相似值與美國普查數據相結合,發現文本向量的變化捕捉到了現實社會中人口和職業的變遷。Austin?C.?Kozlowski等(2019)用詞嵌入測量了階層的多個維度,包括道德、地位、教育、培養、性別和就業,發現:在20世紀的經濟轉型中,階層的標志雖不斷變化,但它的基本文化維度顯著地保持穩定。在經濟和金融領域,王靖一和黃益平(2018)用詞向量拓展了金融科技情緒詞典。

在文檔層面,主題模型將文本表示為多個主題的混合;在單詞層面,詞嵌入實現了詞語的向量表示。為綜合二者信息,Christopher?E.?Moody(2016)提出了lda2vec,即LDA和word2vec的擴展,共同學習單詞、主題和文檔向量。已有學者應用在具體研究中(Luo?&?Shi,2019;Zhenni?&?Qian,2020)。受詞向量模型啟發,Quoc?Le?和?Tomas?Mikolov(2014)提出doc2vec,將句子/段落/文檔表示為一列矩陣,也映射到向量空間中,然后將句子/段落/文檔向量和詞向量相加求平均或累加得到一個新的向量,再用這個向量預測下一個單詞。已有學者在社會科學中應用doc2vec,例如Lei?Chen等(2016),Metin?Bilgin?和??zzet?Fatih??entürk(2017),Qufei?Chen?和?Marina?Sokolova(2018)。

五、應用思路

這一部分將討論如何在具體研究議題中運用分析方法:首先,在文本分析方法基礎上總結八類分析任務;接著,回顧它們在各社會學科中的應用情況,即各分析任務對應的具體研究議題。

(一)從方法到分析任務

從方法特征及用途出發,回顧基于文本的社會科學實證研究,我們可以總結出八類分析任務:獲得主題、測量概念/指標、測量情感、生成分類變量/組別、呈現/分析網絡結構、計算相關/回歸、考慮時間、比較相似性/組別差異[2]?。

每一類任務可以用多種方法實現;但是,由于不同方法使用難度和發展成熟度不同,有的方法使用頻率較高,有的則較低。筆者根據文獻回顧情況,總結出分析任務與方法的對應關系。下表中“加號(+)”代表該任務較多由該方法實現,“減號(-)”代表該任務較少情況下由該方法實現,無符號則說明極少情況,但不排除其可能性。

文本分析任務與方法的對應關系

獲得主題指的是從新聞、社交媒體、政治辯論等文本中提取主題,用于分析公眾或特定群體關注的議題、觀點等。最常用的方法是主題模型,另外還有字典法和有監督分類等。測量概念/指標指的是用文本測量學科相關概念,例如社會學中的偏見/歧視、政治學中的政黨立場/意識形態、經濟學中的經濟政策不確定性指數、金融學中的投資者關注度指數等。常用的方法包括詞頻、詞類等文本特征構建計算公式,還有主題或詞語間的空間距離。情感是特殊化的主題或指標,用于分析文本生產者或反映對象的情緒狀態、情感傾向,常使用字典法和分類算法等。情感分析被廣泛應用在各社會科學學科中,發展較為成熟。生成分類變量/類別常常作為其他分析的基礎,一般通過有監督分類、無監督聚類或網絡社區探測獲得;之后,這些分類變量可以納入統計分析中,或對比不同組別的屬性特征。網絡類型既包括語義網絡,還包括基于文本構建的主題網絡、主體網絡、主體—主題網絡等。網絡分析既包括基于節點/邊的分析,又包括基于子圖的分析。計算相關/回歸之前需要獲得主題、指標、情感等,然后用相關分析、回歸模型或結構主題模型等解釋現象,某種程度上與傳統定量研究思路相似。分析社會現象時考慮時間能夠直觀地呈現現象的變化,變化本身便是社會科學的重點研究議題,大數據文本常常帶有時間信息,為這一分析提供了便利。比較相似性或組別差異也是社會科學的經典思路,例如學科概念中的分歧和偏差,以及不同群體、地區的現象差異等;此任務幾乎涉及所有方法,尤其是基于矩陣/向量空間的方法和數值特征類的方法。

(二)從分析任務到學科應用

分析任務在不同學科中表現為不同的研究議題。筆者簡單梳理了它們在七個學科中的應用情況,包括社會學、政治學、公共管理、新聞傳播、經濟學、金融學和公共衛生[3]。

1.?獲得主題

獲得主題在社會學中主要用于分析微博或論壇文本中特定群體的觀點或關注的議題。黃榮貴(2017)用主題模型分析了關注勞工議題的社會組織的微博文本,發現他們主要關注:工人文藝與公益、工人的困境與問題、工人組織與維權、制度與勞工權等。

在政治學中,獲得主題主要用于分析政治議程設置,即用政治類文本分析議題分布。Catalinac(2016)用主題模型分析了1986年到2009年日本眾議院的競選文本,得到了候選人主要關注的69個主題,并發現1994年選舉制度改革后,議員的普惠性物品承諾總體上升。

公共管理學中,獲得主題主要用于分析公共政策的注意力或工作分配,即主題分布,以及公共事件的輿論內容分析,從而提升治理水平和質量。郎玫(2018)分析了甘肅省的政策文本,將市級政府工作的主題與中央職能進行匹配性分析,總結出其職能供給匹配的特征。Sachdeva等(2017)用社交媒體上火災相關的文本,提取主題來追蹤火災及其產生的煙霧,從而估計和預警空氣質量。

新聞傳播學中,獲得主題用于分析新聞框架,或媒體中的國家形象。Anjalie?Field等(2018)用俄羅斯《消息報》2013年的新聞文本,分析了媒體如何設置分散注意力的框架。Guang?Xu?和?Ming?Ren(2018)用中國在達沃斯論壇的演講和西方新聞文本,考察了自我國家形象和西方媒體建構形象間的差異。

公共衛生學中,獲得主題主要用于分析公眾對藥物、疫情、衛生相關政策等的意見、態度和需求,或醫療相關的輿情內容。Allison?J.?Lazard等(2017)分析討論了電子煙法規的推特文本,生成了9個主題,包括法規對電子煙市場的影響、對公眾健康的影響等。韓珂珂等(2021)用某公共衛生事件的微博文本,發現公眾較為關注防控工作安排、確診與新增病例等主題,還分析了輿情的情感特征和地域關聯。

2.?測量概念/指標

測量概念/指標在社會學中被用于預測數值型變量(失業率或員工流動概率等),或測量偏見/歧視。Scott?和?Varian(2015)用貝葉斯時間序列模型分析了谷歌搜索數據,實時“預測”失業率。Baker?和?Fradkin(2017)用谷歌搜索數據測量了求職強度。Aylin?Caliskan?等(2017)和Nikhil?Garg?等(2018)用詞嵌入測量了文本中的性別和種族偏見,且測量結果與調查數據基本一致。

在政治學中,測量概念/指標被用于分析政治、媒體、微博等文本中的政黨立場或意識形態,也被用于估計腐敗指數等。Slapin和Proksch(2008)用字典法分析了政黨宣言文本,用詞頻構建了政黨傾向性指數。Saiz和Simonsohn(2013)用城市名與腐敗相關關鍵詞的組合除以單獨城市名搜索到的網頁數,估計美國城市的腐敗指數。

在公共管理學中,測量概念/指標被用于測量政策工具的組合特征、公共管理議題的關注度和政府的回應強度等。Schmidt和Sewerin(2019)用9個國家的可再生能源政策測量了政策工具組合特征——組合平衡及設計特征(強度和技術專一性)。Jiang等(2019)用中國地方政府領導留言板中各個城市的留言數目衡量民眾的議題關注度,用地方政府工作報告中福利主題占比較前一年的變化衡量政府對民眾意見的回應強度。

新聞傳播學中,測量概念/指標被用于構建媒體報道偏差指數(media?slant)。Gentzkow和Shapiro(2010)用國會共和黨和民主黨發言文本得到最能預測黨派的短語及其回歸系數,用這些短語在新聞文本中的出現頻率加上回歸系數得到報道偏差分類,且驗證了分類結果與真實分類、用戶對報紙的意識形態評級有較強相關。

經濟學中,測量概念/指標被用于測量經濟政策不確定性指數,或預測宏觀經濟變量(如國內生產總值GDP)。Baker?等(2016)用1985年以來的美國10家主流新聞媒體的文本,統計了同時包含經濟、不確定和政策三類詞語的月度文章數量,進行標準化等處理后構建了經濟政策不確定性指數(Economic?Policy?Uncertainty,EPU),還進一步拓展為11個主要經濟體的月度EPU指數,貨幣、財政、國防等11類政策的EPU指數,以及英國、美國的日度EPU指數。劉濤雄和徐曉飛(2015)用對消費、投資、凈出口、政府購買、就業五類詞的百度搜索指數和政府統計指標共同預測GDP。張崇等(2012)發現網絡搜索數據與居民消費價格指數(CPI)存在先行滯后關系,能夠比國家統計局提前一個月左右發布數據。

金融學中,測量概念/指標被用于分析金融市場的不確定性指數、投資者和媒體的關注度、年報的可讀性等。金融市場不確定性指數,即新聞隱含波動率指數(news?implied?volatility,NVIX),是通過尋找文本特征與市場波動率指數(VIX)的對應關系、然后用訓練得到的模型進行預測而得到的。如Manela?和?Moreira(2017)用《華爾街日報》1890年到2009年的頭版新聞,使用支持向量回歸法訓練詞頻向量預測VIX,最后根據每個月的詞頻向量向前預測NVIX。這一思路還可用于獲得交易率、波動率等。投資者關注度方面,一類學者使用搜索引擎的數據進行測量,如Da等(2011)用Russell?3000成分股的代碼查詢谷歌搜索指數;還有一類學者用財經論壇的帖子數量進行測量,如Antweiler和Frank(2004)與Tsukioka等(2018)使用了雅虎財經論壇的帖子數量。媒體關注則是通過統計與金融市場、上市公司相關的新聞數量測量而獲得的(Fang?&?Peress,2009;Hillert?et?al.,2014;周開國等,2016)。年報可讀性直接影響接收者的信息獲取難度,因此發布者會通過調整可讀性來降低壞消息的傳播速度,或提高好消息的傳播速度。基于這一假設,Li(2008)用平均詞語長度和復雜詞語比例得到的迷霧指數(fog?index)(Gunning,1952)和詞語數量來測量年報可讀性,進一步發現年報可讀性差的公司往往盈利水平較低。

公共衛生學中,測量概念/指標被用于監測和預測疾病發生率;其原理與NVIX相似,即建立文本特征預測疾病相關變量的模型,進而用模型預測其他研究對象或未來的疾病情況。如S.D.Young?等(2014)發現HIV相關推特文本比例與地區HIV病例數間是正相關,提出可以用社交媒體文本實時監測地區HIV情況。

3.測量情感

測量情感在社會學中被用于分析特定群體對特定社會現象的情緒狀態、情感傾向。龔為綱和朱萌(2018)用GDELT數據庫(通過從新聞文本中實時提取人物、地點、組織和事件類型等而整理的),分析各階層在六類壓力——自然災害、人為災害、貧困、失業、社會沖突和各種危機性情景——下的情緒狀態。另外,還可用于分析論壇用戶對不同類型主題的情感值。

在政治學中,測量情感被用于分析公眾對某一政治主張或選民對某一候選人的情緒指數,并作為立場傾向的測量。Vargo等(2014)通過計算每一用戶對奧巴馬和羅姆尼的情緒指數,來識別推特用戶的政治取向,還探討了用戶“融合”(meld)不同議程設置的媒體的不同方式。

公共管理學中,測量情感被用于分析公眾對某些公共事件或社會重大議題的情感傾向。劉叢等(2015)用24起公共事件的微博文本做情感分析,發現各個情緒的指向對象占比不同,如認可情緒主要針對當事方,而恐懼情緒指向較為分散。

新聞傳播學中,測量情感被用于分析輿情中的公眾情緒;其中的輿情內容多與公共管理相關。鐘智錦等(2017)用我國香港、澳門相關的微博文本分析了公眾對港澳回歸的情感記憶,發現:整體上自豪感高于負面情緒,但對港澳的情緒在具體話題上存在差異,如“回歸”話題中對香港的自豪感得分顯著高于對澳門的,在“一國兩制”、與內地關系等幾個話題中對香港自豪感得分則低于對澳門的。

金融學中,測量情感被用于分析媒體對金融議題的情緒,以及管理層和投資者的情緒,分別用財經新聞文本,上市公司的財務報告、盈余公告、招股說明書和財經論壇、微博、推特和谷歌搜索等獲得。學者們主要采用三種方式測量情緒:一是字典法計算詞頻,如汪昌云和武佳薇(2015)用正負面詞匯的詞頻經過簡單計算得到了媒體語氣指數;二是分類算法,如楊曉蘭等(2016)先隨機抽取2000條股吧帖子,標簽為“積極”“中立/噪聲”“消極”,運用多種分類算法建模,最后將訓練得到的、正確率最高的KNN算法模型應用到其他90多萬條帖子;三是用看漲文本數和看跌文本數構建單個股票單日情緒指標,再綜合文本數得到個股情緒指數,如段江嬌等(2017)用股吧帖子以這種方式得到了個股情緒指數。

公共衛生學中,學者們用情感得分來構建衛生服務評價指數,或分析公眾對公共衛生事件、政策的態度。Huppertz等(2018)使用臉書上131家醫院的57985條評論文本,發現評論的情感得分能夠預測醫院的衛生服務調查評估結果,提出能夠用線上評論文本評估醫院服務水平。張敏等(2016)用“魏則西事件”相關的微博文本,分析了其情感得分及對輿情發展的影響。

4.生成分類變量/組別

在社會學中,這種分析被用于劃分不同的群體,或根據一定理論預設得到分類變量,例如年齡、性別、職業等?;凇奥殬I反映的社會地位影響人們的語言使用”假設(Bernstein,1960;Bernstein,2003;Labov,2006),Preot?iuc-Pietro等(2015)使用了推特文本的詞簇(word?clusters)和嵌入等特征表示來預測職業分類,Pan?Jiaqi等(2019)則進一步指出:除了推特文本內容,用戶的關注者/跟隨者社區和社交網絡也為職業分類提供了有用信息。

在政治學中,這種分析被用于預測黨派立場分類,而“測量概念/指標”得到的是數值變量。Green等(2020)收集了國會議員的推特文本,用單條推特文本預測用戶的黨派,并進一步用預測能力衡量極化程度,發現預測能力越高,極化程度越高。這種分析也可用于識別一般民眾的立場類別;不過,立場類別的信息含量少于立場數值。

公共管理學中,這種分析被用于政策工具分類。李娜等(2021)指出了目前多人工識別政策工具,提出用深度學習方法實現政策工具的自動化分類,并用北上廣貴的政府信息公開政策驗證了方法的有效性。

新聞傳播學中,這種分析被用于識別是否謠言、假新聞,有無爭議等。Julio?C.?S.?Reis(2019)在以往的常用文本特征外,提出了新的特征來識別假新聞,進一步討論了假新聞的來源、影響等(Allcott?&?Gentzkow,2017)。Lei?Zhong等(2020)提出用圖卷積網絡識別文本中是否存在爭議,并在Reddit和微博數據集上驗證了方法的有效性,為評估事件影響、緩和極化觀點提供了基礎工作。

經濟學中,這種分類被用于行業分類,能夠相對實時觀測到行業類型的變化。Hoberg和Phillips(2016)基于1996年到2008年的上市公司產品描述文本,測量了企業與競爭對手間產品的相似性,進而用聚類算法得到了300個行業類別,與已有的行業分類體系基本一致;通過觀測行業類型隨著時間發生的變化,檢驗公司如何對市場的內外部變化做出反應,發現外生沖擊對特定行業及其競爭對手的競爭強度和產品供應有重大影響。

公共衛生學中,這種分析可以建立文本特征預測是否患病的模型,用于識別可能的潛在患者,實現疾病風險預測。He?Qiwei等(2017)使用創傷后應激障礙(PTSD)患者和非PTSD患者的自述文本,用分類算法識別語言特征與疾病診斷間的關系模式,最終用于識別文本對象是否存在疾病風險。

5.呈現/分析網絡結構

社會學研究根據討論主題、互動關系等構建了社會互動網絡,還可進一步發現有影響力的節點和社區等。Sachan等(2012)提出可以用討論內容、互動類型和人們之間的聯系共同實現社區探測,并用推特數據和Enron郵件數據驗證了其比以往模型表現好。Tang等(2011)用主題模型分析了每個用戶的主題概率分布,最終用于識別關于某個主題的最有影響力的行動者,并分析其如何與其他行動者連接。

政治學研究分析了政治辯論中的話語網絡。Padó等(2019)用德國移民辯論文本,構建了行動者及其主張的話語網絡,并用于理解政治決策的邏輯。Guo和Vargo(2015)用2012年美國總統選舉相關的推特文本,建立了關聯候選人和議題的議題所有權網絡(issue?ownership?network)。

公共管理研究分析了府際關系和治理網絡。張海波和陶志剛(2021)用中央政策文本提取發文部門,構建部門間聯合發文關系矩陣,分析了公共衛生事件對部門合作網絡結構和組織角色劃分的影響。徐國沖和霍龍霞(2020)用中央層級食品安全監管文件構建了合作監管網絡,進而用隨機行動者導向模型驗證權威、傳遞性、優先連接、制度鄰近性假設,討論合作監管網絡的生成邏輯。

新聞傳播研究分析了社交媒體和新聞媒體等文本的話語網絡,用于了解媒體塑造特定對象的方式(有時也稱為媒體框架)。Qin(2015)對比了“棱鏡門”事件在推特和傳統媒體的語義網絡,發現斯諾登在推特中被塑造為“英雄”,與泄密者、兩黨問題、個人隱私等關聯,在傳統媒體中則被塑造為“叛徒”,與國家安全、國際關系等關聯。

金融學研究分析了董事網絡及其影響。陳運森和謝德仁(2012)用CSMAR數據庫中高管的個人資料提取董事任職數據,構建了“董事—董事”的一模矩陣,分析了其與高管薪酬—業績敏感性、未來業績的關系。

公共衛生研究分析了健康問答社區里的主題網絡和用戶網絡等。鄧勝利和劉瑾(2016)用百度知道的高血壓相關文本,構建了“老人”“母親”的詞語共現網絡,發現談及老人時,多討論“年紀”、發病地點在“家中”等,談及母親時,相對多地談及“降壓”等“治療”辦法。石靜等(2019)對比了國內外健康問答社區的主題共現網絡,發現:“飲食”雖未與較多主題共現,但如果與其共現,其次數很高;另外,國外用戶的“情感支持”主題與全部主題都具有共現關系,說明其用戶的情感需求高于國內用戶。

6.?計算相關/回歸

社會學研究分析了群體屬性與行為間的關系,或分析網絡的影響因素。陳華珊(2015)用論壇數據,發現虛擬社區對社區在線參與行為存在正效應,且不同議題的討論網關系的轉化,能夠促進在線參與。

政治學研究分析了社交媒體、制度改革等對政治立場、選舉等的影響,或線上行為與立場傾向間的關系。Catalinac(2016)用日本眾議院競選文本,發現1994年的選舉制度改革,改變了議員的選舉動機和策略性行為。Grinberg等(2019)用2016年總統選舉相關的推特文本,發現假新聞分享行為與發布政治相關推特、暴露在假新聞源下、政黨立場相關。

公共管理研究分析了管理行為的影響因素。Jiang等(2019)用主題模型從中國地方政府領導留言板和地方政府工作報告文本提取主題,前者測量公眾的關注度分配,后者測量政府的工作分配;發現公眾的議題關注變化顯著地正向影響次年的政府工作安排。劉河慶(2020)用中央和省級農村政策文本,分析了中央層面的行政壓力和經濟激勵、地方層面的執行能力和內在動力及其交互作用等對政策擴散的影響。

經濟學研究分析了媒體情緒和經濟狀態之間的關系、經濟政策不確定性指數(EPU)與其他經濟變量間的關系以及央行政策內容對市場的影響。情緒方面,Shapiro等(2020)用美國經濟和金融相關的新聞文本構建了月度情緒指數,分析了其與當前、未來經濟狀態的關系,發現積極的情緒沖擊會增加消費、產出和利率,并抑制通貨膨脹。EPU方面,Baker等(2016)用向量自回歸分析了EPU的面板數據,發現EPU能夠預測國家層次的投資、產出和就業變量。央行政策方面,Hansen和McMahon(2016)從FOMC會議中提取經濟狀態相關主題及其語調,進而分析了央行溝通內容對市場的影響。邁克爾·麥克馬洪等(2019)還總結了中國央行的相關文本,包括《貨幣政策執行報告》、貨幣政策委員會的會議新聞稿、行長的講話和新聞發布會、公開市場操作報告等。

金融學研究分析了關注度、情緒、經濟政策不確定性指數(EPU)、投資者分歧等對金融市場的影響。關注度方面,Antweiler和Frank(2004)發現投資者關注能夠預測收益率和市場波動率。情緒方面,如汪昌云和武佳薇(2015)分析了媒體語氣對IPO抑價率的影響,楊曉蘭等(2016)分析了投資者情緒對股票收益率的影響,段江嬌等(2017)分析了個股情緒指數對股價波動的影響。EPU方面,Gulen和Ion(2016)研究了EPU對公司投資的影響,Pástor和Veronesi(2013)研究了EPU對股市波動率的影響。投資者分歧方面,段江嬌等(2017)發現當日投資者情緒分歧影響未來兩日的交易量。

公共衛生研究分析了健康狀態的影響因素,以及衛生機構議題如何受政策變化影響。盧延鑫和姚旭峰(2013)用基于規則的分類器從流行病研究文獻中提取致病因素,為疾病預防和控制提供參考。Hollibaugh(2019)用結構主題模型分析了醫療保險和服務中心的文件,探討了機構的事務優先級如何受總統—國會分歧等協變量影響。

7.?考慮時間

社會學研究分析了社會現象的變遷,也包括學科變遷。例如Atalay等(2017)用1960年到2000年的招聘廣告分析了工作內容的變遷,認為其與就業變遷同等重要,從另一角度分析了勞動力市場的變遷。郭臺輝和周浥莽(2020)用結構主題模型分析歷史社會學論文,觀察方法規范性和主題多樣性在四十年學術史中的時期變化,由此回答了“歷史社會學是否能化解學科之爭”的問題。

政治學研究分析了議員議題的變化及其與特定外部事件的聯系。Derek?Greene和James?P.?Cross(2017)用動態主題模型分析了歐洲議會演講文本,發現其政治議程隨著時間推移發生顯著變化,以對歐盟條約公投和歐元危機等外部事件做出反應。

公共管理研究分析了政府工作內容的變化及政策體系的變遷路徑。魏偉等(2018)用1954年到2017年的國務院政府工作報告,得到了9類工作特征詞,分析了其在不同階段的重要性。黃萃等(2015)通過分析科技政策總結了不同時期的主題熱點、部門間的合作網絡。

新聞傳播研究分析了輿情的演化或國家媒體形象的演變。任中杰等(2019)用天津8·12?;繁ㄊ鹿氏嚓P的微博文本,分析了輿情在不同階段的詞云、情感傾向、評論用戶的年齡情況和地域熱度等。劉若涵(2019)基于“一帶一路”相關的推特文本,用主題模型和情感分析方法,分析了中國國家形象在英文社交媒體上的歷時性變化。

經濟學研究將這種方法用于度量和預測經濟周期。Thorsrud(2020)用商業新聞文本和季度GDP構建了日度經濟周期指數;具體而言,用主題模型、情感分析構建時間序列數據,進一步用時變動態因子模型估計經濟周期指數,相對實時地觀測經濟活動。

金融學研究用每月的新聞隱含波動率指數,來測量金融市場的不確定性(已在“測量概念/指標”部分介紹,此處不贅述)。

公共衛生研究分析了相關輿情的議題演化,為政府提供公共衛生輿情的信息支持。安璐等(2018)用2015年中東呼吸綜合征爆發時的微博、微信文本,分析了話題關注點在不同階段的變化,并總結出熱點話題的演化規律。曹樹金和岳文玉(2020)用某公共衛生事件的微博文本分析了各主題在不同輿情階段的情況,發現公眾主要關注事件的發生與發展、防護措施與響應等,且不同階段的側重點存在差異。

8.?比較相似性/組別差異

社會學研究分析了不同群體的行為狀態或不同時期的社會現象邏輯等。龔為綱和朱萌(2018)用GDELT數據庫,對比了不同階層在三方面——總體情緒、不同壓力下的情緒和與其他階層互動的情感氛圍的差異。Nelson(2020)收集了第一次和第二次婦女權益運動時期相關社會組織的文本,綜合運用了計算機技術和深度閱讀方法分析,發現:兩個時期大體采用相似的模式開展;另外,芝加哥的傾向于通過機構和國家來實現短期目標,而紐約的偏向于從個體角度出發。

政治學研究對比了不同黨派、性別群體的政治討論參與差異。Green等(2020)用116屆國會議員的推特文本,討論了不同政黨向選民傳達的內容差異,發現民主黨更強調公共衛生危機對公眾健康和美國工人的影響,共和黨則強調中國和企業。Barberáe和Rivero(2015)用選舉相關的推特數據發現女性往往更活躍、話語復雜程度略高于男性,但在推特上的代表性不足。

公共管理研究用政策相似度分析了政策擴散現象。劉河慶和梁玉成(2021)通過對比國家和省級政策文本間的相似性,獲得了內容再生產系數,以此衡量縱向政策擴散情況。郁建興(2019)用我國29個省份的“最多跑一次”政策文本,基于文本相似性刻畫了政策擴散的空間分布規律。

新聞傳播研究對比了不同群體、地區的輿情情況。廖海涵等(2018)用8·12天津爆炸事件相關的微博文本,對比了發布者和評論者的主題內容、在不同階段的主題特征等。

金融學研究用投資者間的差異建構了分歧指數。如Antweiler?和?Frank(2004)用金融論壇的文本計算帖子的情緒,進而用帖子情緒的標準差構建分歧指數,用于驗證“投資者分歧促進交易”的理論(Harris?&?Raviv,1993)。

公共衛生研究對比了不同群體的健康信息需求。盛姝等(2021)用醫享網直腸癌圈的帖子文本,分析了不同性別、年齡、角色的用戶的健康信息需求差異,發現36~60歲中年群體的信息需求高于其他用戶,且最為關注治療方案。

六、討論和反思

本文回顧了從文本中獲得社會知識的思想基礎、文本分析方法、方法在具體學科的應用思路及進展,嘗試呈現將文本轉換為社會知識的路徑和基于文本的社會科學研究的圖景。

但方法并不是全能、萬能的,這些方法仍然存在許多局限性。例如計算文本分析技術無法完整呈現或分析文本復雜的含義,也很難實現文本以外的聯想,不可能替代深度閱讀(Grimmer?&?Stewart,?2013),導致文本分析的結果始終與社會事實存在距離。目前沒有很好的應對方式,但有三項方法使用原則:一是問題導向,即明確方法只是工具,目標在于研究問題;二是靈活使用方法,大膽想象新的應用思路,并混合使用多種方法,充分挖掘方法的潛力和發揮方法的優勢;三是注重穩健性分析,為了得到更準確、合理的模型和解釋,應再三驗證研究結論,盡可能地保證研究結果的穩定性和可復制性。研究議題方面,要么提高已有議題的分析水平,要么提出新的研究議題;同時,加強與傳統研究的對話,關注以往研究中的悖論或受數據、方法所限無法研究的議題,可提出有意義的研究議題。從數據豐富程度出發,筆者認為目前存在較好對話基礎的研究領域有:社會變遷研究、政策文本研究、社會網絡研究、文化社會學、歷史社會學等。

文本分析技術不斷發展,從文本中獲取社會知識的能力也在不斷提升,我們充滿期待的同時也應理性面對這一趨勢。

參考文獻

安璐、杜廷堯、李綱、余傳明,2018,《突發公共衛生事件利益相關者在社交媒體中的關注點及演化模式》,《情報學報》?第37卷第4期。

曹樹金、岳文玉,2020,《突發公共衛生事件微博輿情主題挖掘與演化分析》,《信息資源管理學報》第10卷第6期。

陳華珊,?2015,《虛擬社區是否增進社區在線參與??一個基于日常觀測數據的社會網絡分析案例》,《社會》第35卷第5期。

陳原,?1983,《社會語言學》,上海:?學林出版社。

陳云松,?2015,《大數據中的百年社會學——基于百萬書籍的文化影響力研究》.《社會學研究》第1期。

陳運森、謝德仁,2012,《董事網絡、獨立董事治理與高管激勵》,《金融研究》第2期。

單曉紅、龐世紅、劉曉燕等,?2019,《基于事理圖譜的網絡輿情演化路徑分析——以醫療輿情為例》,《情報理論與實踐》第?42卷第9期。

鄧勝利、劉瑾,2016,《基于文本挖掘的問答社區健康信息行為研究——以“百度知道”為例》,《信息資源管理學報》第6卷第3期。

段江嬌、劉紅忠、曾劍平,2017,《中國股票網絡論壇的信息含量分析》,《金融研究》第10期。

龔為綱、朱萌、張賽等,?2019,《媒介霸權,?文化圈群與東方主義話語的全球傳播——以輿情大數據?GDELT?中的涉華輿情為例》,《社會學研究》第5期。

龔為綱、朱萌,2018,《社會情緒的結構性分布特征及其邏輯——基于互聯網大數據?GDELT?的分析》,《政治學研究》第4期。

郭臺輝、周浥莽,2020,《歷史社會學能化解學科之爭嗎?——基于西方學術史的結構主題模型分析》,《社會學研究》第35卷第3期。

韓珂珂、邢子瑤、劉哲等,2021,《重大公共衛生事件中的輿情分析方法研究——以新冠肺炎疫情為例》,《地球信息科學學報》第23卷第2期。

黃萃、任弢、張劍,2015,《政策文獻量化研究:公共政策研究的新方向》,《公共管理學報》第2期。

黃光國,?2006,《社會科學的理路》,北京:?中國人民大學出版社。

黃榮貴,?2017,《網絡場域,?文化認同與勞工關注社群:?基于話題模型與社群偵測的大數據分析》,《社會》第?37卷第2期。

郎玫,2018,《大數據視野下中央與地方政府職能演變中的匹配度研究——基于甘肅省14市(州)政策文本主題模型(LDA)》,《情報雜志》第37卷第9期。

李娜、姜恩波、朱一真、劉婷,2021,《政策工具自動識別方法與實證研究》,《圖書情報工作》第65卷第7期。

廖海涵、王曰芬、關鵬,2018,《微博輿情傳播周期中不同傳播者的主題挖掘與觀點識別》,《圖書情報工作》第62卷第19期。

劉挺,《從知識圖譜到事理圖譜》[EB/OL].[2017-11-15].2017中國計算機大會.

劉叢、謝耘耕、萬旋傲,2015,《微博情緒與微博傳播力的關系研究——基于24起公共事件相關微博的實證分析》,《新聞與傳播研究》第22卷第9期。

劉河慶、梁玉成,2021,《政策內容再生產的影響機制——基于涉農政策文本的研究》,《社會學研究》第36卷第1期。

劉河慶,2020,《文件治理中的政策采納及其影響因素研究?基于國家和省級政府政策文本(2008—2018)數據》,《社會》第40卷第4期。

劉若涵,2019,《社交媒體平臺的國家形象研究》,北京:北京交通大學。

劉濤雄、徐曉飛,?2015,《互聯網搜索行為能幫助我們預測宏觀經濟嗎?》,《經濟研究》第50卷第12期。

盧延鑫、姚旭峰,2013,《基于文本挖掘的流行病學致病因素的提取》,《北京生物醫學工程》第2期。

邁克爾·麥克馬洪、席睿德、李想,2019,《中國的貨幣政策溝通:框架、影響和建議》,《中國經濟報告》第3期。

丘心穎、鄭小翠、鄧可斌,2016,《分析師能有效發揮專業解讀信息的作用嗎?——基于漢字年報復雜性指標的研究》,《經濟學(季刊)》第15卷第4期。

任中杰、張鵬、蘭月新等,2019,《面向突發事件的網絡用戶畫像情感分析——以天津“8·12”事故為例》,《情報雜志》第38卷第11期。

沈艷,?陳赟,?黃卓,?2019.?文本大數據分析在經濟學和金融學中的應用:?一個文獻綜述[J].?經濟學?(季刊),?18(4).

盛姝、黃奇、鄭姝雅等,2021,《在線健康社區中用戶畫像及主題特征分布下信息需求研究——以醫享網結直腸癌圈數據為例》,《情報學報》第40卷第3期。

石靜、厲臣璐、錢宇星等,2019,《國內外健康問答社區用戶信息需求對比研究——基于主題和時間視角的實證分析》,《數據分析與知識發現》第3卷第5期。

汪昌云、武佳薇,2015,《媒體語氣、投資者情緒與IPO定價》,《金融研究》第9期。

王戈、王國華、方付建,2017,《網絡社會思潮領袖的群體特征——以近年來20件意識形態領域熱點事件為例》,《情報雜志》第36卷第4期。

王靖一、黃益平,?2018,《金融科技媒體情緒的刻畫與對網貸市場的影響》,《經濟學?(季刊)》第17卷第4期。

維特根斯坦,1996,《邏輯哲學論》,北京:商務印書館。

魏偉、郭崇慧、陳靜鋒,2018,《國務院政府工作報告(1954—2017)文本挖掘及社會變遷研究》,《情報學報》第37卷第4期。

吳軍,2014,《數學之美》,北京:?人民郵電出版社。

徐國沖,霍龍霞,2020,《食品安全合作監管的生成邏輯——基于2000—2017年政策文本的實證分析》,《公共管理學報》第17卷第1期。

許鑫、張雯雯、侯仕軍,2013,《基于?WordScore?的區域合作交流政策價值評價研究——以滬浙兩地為例》,《西南民族大學學報:?人文社會科學版》第4期。

楊曉蘭、沈翰彬、祝宇,2016,《本地偏好、投資者情緒與股票收益率:來自網絡論壇的經驗證據》,《金融研究》第12期。

郁建興,2019,《最多跑一次”改革:浙江經驗,中國方案》,北京:中國人民大學出版社。

張崇、呂本富、彭賡等,2012,《網絡搜索數據與?CPI?的相關性研究》,《管理科學學報》第15卷第7期。

張海波、陶志剛,2021,《公共衛生事件應急管理中政府部門間合作網絡的變化》,《武漢大學學報(哲學社會科學版)》第74卷第4期。

張敏、夏宇、劉曉彤,2016,《重大醫療傷害事件網絡輿情能量傳播過程分析——以“魏則西事件”為例》,《情報雜志》第35卷第12期。

鐘智錦、林淑金、溫儀等,2017,《內地網民情緒記憶中的香港澳門回歸》,《新聞與傳播研究》第24卷第1期。

周開國、應千偉、鐘暢,2016,《媒體監督能夠起到外部治理的作用嗎?——來自中國上市公司違規的證據》,《金融研究》第6期。

A.Singhal.“Introducing?the?Knowledge?Graph:?things,?not?strings”,Official?Google?Blog,May?2012.?https://blog.google/products/search/introducing-knowledge-graph-things-not/.

Alizadeh,M.,?Shapiro,J.N.,Buntain,C.,et?al.?2020,“?Content-based?features?predict?social?media?influence?operations.”?Science?advances??6(30).

Allcott,H.,Gentzkow,M.2017,“Social?media?and?fake?news?in?the?2016?election.”?Journal?of?economic?perspectives??31(2).

Antweiler,W.,Frank,M.Z.2004,“Is?all?that?talk?just?noise??The?information?content?of?internet?stock?message?boards.”?The?Journal?of?finance?59(3).

Atalay,E.,Phongthiengtham,P.,Sotelo,S.,et?al.?2017,“?The?evolving?US?occupational?structure.”Washington?Center?for?Equitable?Growth?Working?Paper,?12052017.

Bail,C.A.2016,“Cultural?carrying?capacity:?Organ?donation?advocacy,discursive?framing,?and?social?media?engagement.”Social?Science?&?Medicine?165.

Baker,S.R.,Bloom,N.,Davis,S.J.?2016,“Measuring?economic?policy?uncertainty.”The?quarterly?journal?of?economics?131(4).

Baker,Scott,R.,&?Andrey?Fradkin?2017,“Baker?S?R,?Fradkin?A.?The?impact?of?unemployment?insurance?on?job?search:?Evidence?from?Google?search?data.”Review?of?Economics?and?Statistics??99(5).

Bakshy,E.,Messing,S.,Adamic,L.?A.?2015,“Exposure?to?ideologically?diverse?news?and?opinion?on?Facebook.”?Science?348(6239).

Barberá,P.,Rivero,G.?2015,“Understanding?the?political?representativeness?of?Twitter?users.”?Social?Science?Computer?Review?33(6).

Berger,J.,Humphreys,A.,Ludwig,S.,et?al.?2020,“Uniting?the?tribes:?Using?text?for?marketing?insight.”?Journal?of?Marketing??84(1).

Bernstein,B.?2003,Class,codes?and?control:?Applied?studies?towards?a?sociology?of?language.?Psychology?Press.

Bernstein,B.1960,“Language?and?social?class.”?The?British?journal?of?sociology?11(3).

Biemann,C.,Krumov,L.,Roos,S.,et?al.?2016,“Network?motifs?are?a?powerful?tool?for?semantic?distinction.”Towards?a?Theoretical?Framework?for?Analyzing?Complex?Linguistic?Networks.?Springer,?Berlin,?Heidelberg.

Bilgin,M.,?entürk,?.?F.?2017,“Sentiment?analysis?on?Twitter?data?with?semi-supervised?Doc2Vec.”2017?international?conference?on?computer?science?and?engineering?(UBMK).?Ieee:?661-666.

Blei,D.M.,Ng,A.Y.,Jordan,M.I.2003,“?Latent?dirichlet?allocation.”?the?Journal?of?machine?Learning?research?3.

Bramsen,P.,Escobar-Molano,M.,Patel,A.,et?al.2011,“Extracting?social?power?relationships?from?natural?language.”Proceedings?of?the?49th?Annual?Meeting?of?the?Association?for?Computational?Linguistics:?Human?Language?Technologies:?773-782.

Bruch,E.?E.,Newman,M.E.J.?2018,“Aspirational?pursuit?of?mates?in?online?dating?markets.”?Science?Advances?4(8).

Caliskan,A.,Bryson,J.J.,Narayanan,A.2017,“Semantics?derived?automatically?from?language?corpora?contain?human-like?biases.”?Science?356(6334).

Cao,L.,Zhang,H.,Feng,L.2020,“Building?and?using?personal?knowledge?graph?to?improve?suicidal?ideation?detection?on?social?media.”?IEEE?Transactions?on?Multimedia.

Catalinac,A.2016,Electoral?reform?and?national?security?in?Japan:?From?pork?to?foreign?policy.?Cambridge?University?Press.

Chen,L.,Feng,G.,Leong,C.W.,et?al.2016,“Automated?scoring?of?interview?videos?using?Doc2Vec?multimodal?feature?extraction?paradigm.”Proceedings?of?the?18th?ACM?International?Conference?on?Multimodal?Interaction:?161-168.

Chen,Q.,Sokolova,M.?2018,“Word2vec?and?doc2vec?in?unsupervised?sentiment?analysis?of?clinical?discharge?summaries.”?arXiv?preprint?arXiv:1805.00352.

Corman,S.R.,Kuhn.T,McPhee,R.D.,et?al.??2002,“Studying?complex?discursive?systems.?Centering?resonance?analysis?of?communication.”?Human?communication?research?28(2).

Da,Z.,Engelberg,J.,Gao,P.2011,“In?search?of?attention.”?The?journal?of?finance??66(5).

Danescu-Niculescu-Mizil,C.,Sudhof,M.,Jurafsky,D.,et?al.?2013,“A?computational?approach?to?politeness?with?application?to?social?factors.”?arXiv?preprint?arXiv:1306.6078.

Deerwester,S.,Dumais,S.T.,Furnas,G.W.,et?al.?1990,“Indexing?by?latent?semantic?analysis.”?Journal?of?the?American?society?for?information?science?41(6).

Devlin,J.,Chang,M.W.,Lee,K.,et?al.?2018,“Bert:?Pre-training?of?deep?bidirectional?transformers?for?language?understanding.”?arXiv?preprint?arXiv:1810.04805.

Ding,X.,Li,Z.Y.,Liu,T.,et?al.2019,“ELG:?an?event?logic?graph.?”ArXiv:?1907.08015

Doyle,G.,Yurovsky,D.,Frank,M.C.?2016,“A?robust?framework?for?estimating?linguistic?alignment?in?twitter?conversations.”Proceedings?of?the?25th?international?conference?on?world?wide?web:?637-648.

Evans,J.?A.,Aceves,P.2016,“Machine?translation:?mining?text?for?social?theory.”Annual?Review?of?Sociology?42.

Fang,L.,Peress,J.?2009,“Media?coverage?and?the?cross‐section?of?stock?returns.”The?Journal?of?Finance?64(5).

Farrell,J.2016,“Corporate?funding?and?ideological?polarization?about?climate?change.”?Proceedings?of?the?National?Academy?of?Sciences?113(1).

Farrell,J.?2016,“Network?structure?and?influence?of?the?climate?change?counter-movement.”Nature?Climate?Change?6(4).

Field,A.,Kliger,D.,Wintner,S.,et?al.?2018,“Framing?and?agenda-setting?in?russian?news:?a?computational?analysis?of?intricate?political?strategies.”?arXiv?preprint?arXiv:1808.09386.

批注:表格調

整下,表頭放

側面

Garfinkel,H.1967,Studies?in?Ethnomethodology.Cambridge,?England:?Polity?Press.

Garg,N.,Schiebinger,L.,Jurafsky,D.,et?al.2018,“Word?embeddings?quantify?100?years?of?gender?and?ethnic?stereotypes.”?Proceedings?of?the?National?Academy?of?Sciences?115(16).

Gentzkow,M.,Kelly,B.,Taddy,M.2019,“Text?as?data.”Journal?of?Economic?Literature?57(3).

Gentzkow,M.,Shapiro,J.M.2010,“What?drives?media?slant??Evidence?from?US?daily?newspapers.”?Econometrica?78(1).

Goffman,E.?1967,Interaction?Ritual:?Essays?in?Face?to?Face?Behavior?.?Garden?City,?New?York.

Golder,S.?A.,Macy,M.?W.?2011,“Diurnal?and?seasonal?mood?vary?with?work,?sleep,?and?daylength?across?diverse?cultures.”?Science?333(6051).

Green,J.,Edgerton,J.,Naftel,D.,et?al.?2020,“Elusive?consensus:?Polarization?in?elite?communication?on?the?COVID-19?pandemic.”?Science?Advances?6(28).

Greene,D.,Cross,J.?P.?2017,“Exploring?the?political?agenda?of?the?european?parliament?using?a?dynamic?topic?modeling?approach.”?Political?Analysis?25(1).

Grimmer,J.,Messing,S.,Westwood,S.J.2012,“How?words?and?money?cultivate?a?personal?vote:?The?effect?of?legislator?credit?claiming?on?constituent?credit?allocation.”?American?Political?Science?Review?106(4).

Grimmer,J.,Stewart,B.?M.2013,“Text?as?data:?The?promise?and?pitfalls?of?automatic?content?analysis?methods?for?political?texts.”?Political?analysis?21(3).

Grimmer,J.?2010,“A?Bayesian?hierarchical?topic?model?for?political?texts:?Measuring?expressed?agendas?in?Senate?press?releases.”?Political?Analysis?18(1).

Grinberg,N.,Joseph,K.,Friedland,L.,et?al.?2019,“Fake?news?on?Twitter?during?the?2016?US?presidential?election.”?Science?363(6425).

Gulen,H.,Ion,M.2016,“Policy?uncertainty?and?corporate?investment.”?The?Review?of?Financial?Studies?29(3).

Guo,L.,Vargo,C.2015,“The?power?of?message?networks:?A?big-data?analysis?of?the?network?agenda?setting?model?and?issue?ownership.”?Mass?Communication?and?Society?18(5).

Hahn,M.,Jurafsky,D.,Futrell,R.2020,“Universals?of?word?order?reflect?optimization?of?grammars?for?efficient?communication.”?Proceedings?of?the?National?Academy?of?Sciences?117(5).

Hansen,S.,McMahon,M.2016,“Shocking?language:?Understanding?the?macroeconomic?effects?of?central?bank?communication.”?Journal?of?International?Economics,?99:?S114-S133.

Harris,M.,Raviv,A.1993,“Differences?of?opinion?make?a?horse?race.”?The?Review?of?Financial?Studies?6(3).

He,Q.,Veldkamp,B.P.,Glas,C.A.W,et?al.2017,“Automated?assessment?of?patients’?self-narratives?for?posttraumatic?stress?disorder?screening?using?natural?language?processing?and?text?mining.”?Assessment?24(2).

Heidegger,M.?1946,“Brief?uber?den?Humanismus.”Wegmarken.

Hillert,A.,Jacobs,H.,Müller,S.,2014,“Media?makes?momentum.”?The?Review?of?Financial?Studies?27(12).

Hoberg,G.,Phillips,G.2016,“Text-based?network?industries?and?endogenous?product?differentiation.”?Journal?of?Political?Economy??124(5).

Hofmann,T.1999,“Probabilistic?latent?semantic?indexing.”Proceedings?of?the?22nd?annual?international?ACM?SIGIR?conference?on?Research?and?development?in?information?retrieval:?50-57.

Hollibaugh,G.E.2019,“The?use?of?text?as?data?methods?in?public?administration:?A?review?and?an?application?to?agency?priorities.”?Journal?of?Public?Administration?Research?and?Theory?29(3).

Humphreys,A.,Wang,R.J.H.2018,“Automated?text?analysis?for?consumer?research.”?Journal?of?Consumer?Research?44(6).

Huppertz,J.W.,Otto,P.2018,“Predicting?HCAHPS?scores?from?hospitals’?social?media?pages:?a?sentiment?analysis.”?Health?care?management?review?43(4).

Jackson,J.C.,Watts,J.,Henry,T.R.,et?al.?2019,“Emotion?semantics?show?both?cultural?variation?and?universal?structure.”?Science?366(6472).

Jiang,J.,Meng,T.,Zhang,Q.2019,“From?Internet?to?social?safety?net:?The?policy?consequences?of?online?participation?in?China.”?Governance?32(3).

Jordan,K.N.,Sterling,J.,Pennebaker,J.W.,et?al.2019,“Examining?long-term?trends?in?politics?and?culture?through?language?of?political?leaders?and?cultural?institutions.”Proceedings?of?the?National?Academy?of?Sciences?116(9).

Kozlowski,A.C.,Taddy,M.,Evans,J.A.?2019,“The?geometry?of?culture:?Analyzing?the?meanings?of?class?through?word?embeddings.”?American?Sociological?Review?84(5).

Labov,W.2006,The?social?stratification?of?English?in?New?York?city.?Cambridge?University?Press.

Laver,M.,Benoit,K.,Garry,J.2003,“Extracting?policy?positions?from?political?texts?using?words?as?data.”American?political?science?review?97(2).

Lazard,A.J.,Wilcox,G.B.,Tuttle,H.M.,et?al.?2017,“Public?reactions?to?e-cigarette?regulations?on?Twitter:?a?text?mining?analysis.”?Tobacco?control?26(e2).

Le,Q.,Mikolov,T.2014,“Distributed?representations?of?sentences?and?documents.”International?conference?on?machine?learning.?PMLR:?1188-1196.

Li,F.2008,“Annual?report?readability,?current?earnings,?and?earnings?persistence.”?Journal?of?Accounting?and?economics?45(2-3).

Li,Q.,Peng,H.,Li,J.,et?al.2020,“A?survey?on?text?classification:?From?shallow?to?deep?learning.”?arXiv?preprint?arXiv:2008.00364.

Luo,Y.,Shi,H.2019,“Using?lda2vec?Topic?Modeling?to?Identify?Latent?Topics?in?Aviation?Safety?Reports.”2019?IEEE/ACIS?18th?International?Conference?on?Computer?and?Information?Science?(ICIS).?IEEE:?518-523.

Manela,A.,Moreira,A.2017,“News?implied?volatility?and?disaster?concerns.”?Journal?of?Financial?Economics?123(1).

Michel,J.B.,Shen,Y.K.,Aiden,A.P.,et?al.?2011,?“Quantitative?analysis?of?culture?using?millions?of?digitized?books.”?Science?331(6014).

Mikolov,T.,Sutskever,I.,Chen,K.,et?al.2013,“Distributed?representations?of?words?and?phrases?and?their?compositionality.”Advances?in?neural?information?processing?systems:?3111-3119.

Mohr,J.W.,Wagner-Pacifici,R.,Breiger,R.L.,et?al.2013,“Graphing?the?grammar?of?motives?in?National?Security?Strategies:?Cultural?interpretation,?automated?text?analysis?and?the?drama?of?global?politics.”Poetics?41(6).

Moody,C.E.2016,“Mixing?dirichlet?topic?models?and?word?embeddings?to?make?lda2vec.”?arXiv?preprint?arXiv:1605.02019.

Mooijman,M.,Hoover,J.,Lin,Y.,et?al.2018,“Moralization?in?social?networks?and?the?emergence?of?violence?during?protests.”?Nature?human?behaviour?2(6).

Nelson,L.K.2020,“Computational?grounded?theory:?A?methodological?framework.”?Sociological?Methods?&?Research?49(1).

Padó,S.,Blessing,A.,Blokker,N。,et?al.?2019,“Who?sides?with?whom??towards?computational?construction?of?discourse?networks?for?political?debates.”Proceedings?of?the?57th?Annual?Meeting?of?the?Association?for?Computational?Linguistics:?2841-2847.

Pan,J,Bhardwaj,R.,Lu,W.,et?al.2019,“Twitter?homophily:?Network?based?prediction?of?user’s?occupation.”Proceedings?of?the?57th?Annual?Meeting?of?the?Association?for?Computational?Linguistics:?2633-2638.

Pástor,?,Veronesi,P.2013,“Political?uncertainty?and?risk?premia.”?Journal?of?financial?Economics?110(3).

Pennebaker,J.W.,Francis,M.E.,Booth,R.J.2001,“Linguistic?inquiry?and?word?count:?LIWC?2001.”?Mahway:?Lawrence?Erlbaum?Associates?71(2001).

Pennington,J.,Socher,R.,Manning,C.D.2014,“Glove:?Global?vectors?for?word?representation.”Proceedings?of?the?2014?conference?on?empirical?methods?in?natural?language?processing?(EMNLP):?1532-1543.

Peters,M.E.,Neumann,M.,Iyyer,M.,et?al.2018,“Deep?contextualized?word?representations.”arXiv?preprint?arXiv:1802.05365.

Preotiuc-Pietro,D.,?Lampos,?V.,?Aletras,N.2015,“An?analysis?of?the?user?occupational?class?through?Twitter?content.”Proceedings?of?the?53rd?Annual?Meeting?of?the?Association?for?Computational?Linguistics.

Proksch,S.O.,Slapin,J.B.2009,“How?to?avoid?pitfalls?in?statistical?analysis?of?political?texts:?The?case?of?Germany.”?German?Politics,?18(3).

Qin,J.2015,“Hero?on?Twitter,?traitor?on?news:?How?social?media?and?legacy?news?frame?Snowden.”?The?international?journal?of?press/politics?20(2).

Quinn,K.M.,Monroe,B.L.,Colaresi,M.,et?al.2010,“How?to?analyze?political?attention?with?minimal?assumptions?and?costs.”American?Journal?of?Political?Science?54(1).

Reis,J.C.S.,Correia,A.,Murai,F.,et?al.2019,“Supervised?learning?for?fake?news?detection.”IEEE?Intelligent?Systems?34(2).

Roberts,M.E.,Stewart,B.M.,Tingley,D.,et?al.2014,“Structural?topic?models?for?open‐ended?survey?responses.”American?Journal?of?Political?Science,?58(4):?1064-1082.

Rule,A.,Cointet,J.P.,Bearman,P.S.2015,“Lexical?shifts,?substantive?changes,?and?continuity?in?State?of?the?Union?discourse,?1790–2014.”Proceedings?of?the?National?Academy?of?Sciences?112(35).

Sachan,M.,Contractor,D.,Faruquie,T.A.,et?al.2012,“Using?content?and?interactions?for?discovering?communities?in?social?networks.”Proceedings?of?the?21st?international?conference?on?World?Wide?Web.

Sachdeva,S.,McCaffrey,S.,Locke,D.?2017,“Social?media?approaches?to?modeling?wildfire?smoke?dispersion:?spatiotemporal?and?social?scientific?investigations.”?Information,?Communication?&?Society???20(8).

Saiz,A.,Simonsohn,U.2013,“Proxying?for?unobservable?variables?with?internet?document-frequency.”Journal?of?the?European?Economic?Association?11(1).

Saxena,A.,Prasad,M.,Gupta,A.,et?al.2017,“A?review?of?clustering?techniques?and?developments.”Neurocomputing?267.

Schmidt,T.S.,Sewerin,S.2019,“Measuring?the?temporal?dynamics?of?policy?mixes–An?empirical?analysis?of?renewable?energy?policy?mixes’?balance?and?design?features?in?nine?countries.”Research?Policy?48(10).

Scott,S.L.,Varian,H.R.2015,Bayesian?Variable?Selection?for?Nowcasting?Economic?Time?Series.?University?of?Chicago?Press.

Senter,R.J.,Smith,E.A.1967,Automated?readability?index.?CINCINNATI?UNIV?OH.

Shapiro,A.?H.,Sudhof,M.,Wilson,D.J.2020,“Measuring?news?sentiment.”Journal?of?Econometrics.

Sheshadri,K.,Singh,M.P.?2019,“The?public?and?legislative?impact?of?hyperconcentrated?topic?news.”?Science?advances?5(8).

Sivak,E.,Smirnov,I.?2019,“Parents?mention?sons?more?often?than?daughters?on?social?media.”Proceedings?of?the?National?Academy?of?Sciences?116(6).

Slapin,J.B.,Proksch,S.O.2008,“A?scaling?model?for?estimating?time‐series?party?positions?from?texts.”American?Journal?of?Political?Science?52(3).

Tang,J.,Wu,S.,Gao,B.,et?al.2011,“Topic-level?social?network?search.”Proceedings?of?the?17th?ACM?SIGKDD?international?conference?on?Knowledge?discovery?and?data?mining:?769-772.

Thorsrud,L.A.2020,“Words?are?the?new?numbers:?A?newsy?coincident?index?of?the?business?cycle.”Journal?of?Business?&?Economic?Statistics?38(2).

Tsukioka,Y.,Yanagi,J.,Takada,T.2018,“Investor?sentiment?extracted?from?internet?stock?message?boards?and?IPO?puzzles.”International?Review?of?Economics?&?Finance?56.

van?Bommel,K.2014,“Towards?a?legitimate?compromise??An?exploration?of?integrated?reporting?in?the?Netherlands.”Accounting,?Auditing?&?Accountability?Journal.

Vargo,C.J.,Guo,L.,McCombs,M.,et?al.2014,“Network?issue?agendas?on?Twitter?during?the?2012?US?presidential?election.”?Journal?of?Communication?64(2).

Wallner,F.1994,“Constructive?Realism?Aspects?of?a?New?Epistemological?Movement.”?Varieties?of?Scientific?Realism.

Wang,X.,Zhu,X.2017,“A?Corpus-based?Study?on?Language?Style?and?Authorship?Identification:?Statistical?Characteristics?of?Mo?Yan’s?and?Jia?Pingwa’s?Works.”3rd?International?Symposium?on?Social?Science?(ISSS?2017).?Atlantis?Press:?483-486.

Wild,F.2007,“An?LSA?package?for?R.”Proceedings?of?the?1st?International?Conference?on?Latent?Semantic?Analysis?in?Technology?Enhanced?Learning?(LSA-TEL'07):?11-12.

Wolfson,N.,Judd,E.1983,Sociolinguistics?and?Language?Acquisition.?Newbury?House?Publishers,?Inc,?Rowley,?MA?0l969.

Xu,G.,Ren,M.2018,“Comparing?China's?Self-image?and?Western?Media?Projected?Image:?From?the?Perspective?of?Davos?Forum.”KDIR:?396-404.

Young,S.D.,Rivers,C.,Lewis,B.2014,“Methods?of?using?real-time?social?media?technologies?for?detection?and?remote?monitoring?of?HIV?outcomes.”?Preventive?medicine?63.

Zhenni,N.,Yuxing,Q.2020,“The?Status,?Hot?Topics?in?the?Field?of?Electronic?Health?Records:?A?Literature?Review?Based?on?Lda2vec.”Proceedings?of?the?ACM/IEEE?Joint?Conference?on?Digital?Libraries?in?2020:?479-480.

Zhong,L.,Cao,J.,Sheng,Q.,et?al.2020,“Integrating?Semantic?and?Structural?Information?with?Graph?Convolutional?Network?for?Controversy?Detection.”?arXiv?preprint?arXiv:2005.07886.?

附錄1:文本分析方法總結?????????????

續表

[1]作者簡介:陳金燕,中山大學社會學與人類學學院博士研究生,主要研究方向為計算社會學、文本分析。聯系郵箱:chenjy233@mail2.sysu.edu.cn。

[2]實際上,這些分析任務部分存在關聯關系,例如:情感和主題是特殊類型的分類變量或概念/指標,計算相關/回歸之前需要獲得主題、情感、指標等,考慮時間和比較相似性是前六種任務的進一步工作。但由于各分析任務各有側重,其關聯不影響分析任務本身的特性,本綜述仍按此分類進行。

[3]由于文本分析已成為流行的分析方法,以及方法本身在不斷發展,導致各種新應用層出不窮,難以窮盡所有的文獻,本綜述只是梳理了相對經典的、常見的議題類型。

主站蜘蛛池模板: 津南区| 荥经县| 凤冈县| 寿光市| 中山市| 迁安市| 佛坪县| 阿荣旗| 巴南区| 明光市| 浦北县| 新宾| 绥江县| 浑源县| 新邵县| 博白县| 安化县| 西乡县| 晴隆县| 集贤县| 湘潭县| 扎囊县| 天津市| 克拉玛依市| 邵武市| 抚松县| 襄垣县| 甘德县| 大关县| 陆河县| 固始县| 麻江县| 高碑店市| 石景山区| 汉沽区| 寻甸| 通渭县| 成武县| 玉溪市| 丰城市| 遂川县|