- 網絡輿情分析技術
- 蔡皖東
- 7827字
- 2019-11-18 14:54:39
1.4 網絡輿情分析技術
隨著網絡輿論影響力的增強,網絡輿情已經成為各級政府了解社情民意、改進工作作風、提高執政能力的重要窗口。近年來,國家大力推進網絡輿情監控體系建設,各級宣傳主管部門以及主流新聞媒體等大多設立了網絡輿情監測機構,加強對網絡輿情監測和引導。
在網絡輿情監測中,面對海量的網絡信息,必須借助于信息技術來實現網絡輿情監測的自動化和智能化。于是,各種網絡輿情監測系統便應運而生了。
1.4.1 網絡輿情監測系統
網絡輿情監測系統的主要功能是實現網絡信息的自動采集和網絡輿情的在線監測與分析。盡管不同的網絡輿情監測系統產品存在一定的差異,但在系統架構和核心技術上大同小異。通常,一個網絡輿情監測系統可以按照層次化結構來構建,主要分為數據采集處理、輿情分析引擎和輿情分析服務等三個層次,如圖1-2所示。

圖1-2 網絡輿情監測系統層次結構
(1)數據采集處理層:主要提供網絡數據采集和預處理功能,網絡數據監測和采集的對象主要是主流的網絡新聞、微博、網絡論壇、網絡博客等網站的文本信息,對于采集到的網絡數據,首先需要進行初步的數據過濾、去重等預處理,經過數據格式轉換及元數據標引后,存入數據庫待進一步處理。
(2)輿情分析引擎層:主要提供話題檢測、話題跟蹤、傾向性分析、自動摘要以及中文分詞等功能,輿情分析引擎是網絡輿情監測系統的核心功能,主要完成熱點話題的檢測、跟蹤以及情感傾向性分析,并且對各類熱點話題及傾向性進行自動摘要,分析結果存入數據庫,以便為用戶提供各種輿情分析服務。輿情分析引擎的核心技術是文本聚類、文本分類、情感分析中所采用的模型與算法,直接關系到系統的性能高低。不同的網絡輿情監測系統所采用的模型與算法可能有所不同,系統性能也會不同。
(3)輿情分析服務層:主要提供突發事件分析、輿情預警報警、輿情趨勢分析、輿情統計報告以及輿情查詢檢索等各種輿情分析服務,以方便用戶使用。
網絡輿情監測系統通常采用基于客戶/服務器的系統結構,系統分為客戶機和服務器兩個部分,服務器是整個系統的核心,系統核心軟件運行在服務器上,提供數據采集、輿情分析、輿情服務等核心功能,并為用戶輿情分析服務。客戶機為基于瀏覽器的用戶界面,用戶使用瀏覽器登錄到服務器的用戶界面上,按照用戶界面提供的功能菜單,獲得系統提供的各種輿情分析服務。
可見,一個網絡輿情監測系統的核心技術是網絡輿情分析技術,主要涉及網絡信息采集技術、話題檢測與跟蹤技術、文本情感分析技術等。
1.4.2 網絡信息采集技術
網絡輿情的數據來源是互聯網中各種網絡媒體、信息交流平臺發布的網頁信息,其中包括網絡新聞、微博、論壇帖子等,尤其是微博、網絡論壇等交互式網絡平臺,成為網絡輿論的主要來源地。因此,在網絡輿情分析中,首先需要使用網絡信息采集工具自動搜索和采集主要網絡媒體網站或平臺發布的信息,為網絡輿情分析提供數據資源,網絡輿情分析的效果在很大程度上取決于網絡信息搜索和采集的質量。
網絡信息采集技術涉及搜索引擎、網絡蜘蛛、網頁搜索算法、網頁相關性分析等相關技術。
1.搜索引擎
搜索引擎是互聯網中最常用的信息搜索工具,著名的搜索引擎有Google、百度等。搜索引擎自動搜集互聯網中的網頁信息,經過整理、組織、加工和處理后,建立管理和存儲這些信息的索引庫,并提供基于索引的信息檢索服務。當用戶發出搜索請求時,搜索引擎便根據用戶提交的查詢條件,從索引庫中迅速查找出用戶所需的信息,并返回給用戶。
搜索引擎通常由網絡蜘蛛、索引器、檢索器和用戶接口等部分組成,網絡蜘蛛在互聯網中不斷地搜索,發現和采集新的網頁信息,然后將網頁信息存入網頁庫,由索引器建立索引;索引器將分析網絡蜘蛛所采集的信息,從中抽取出索引項,建立用于檢索頁面的索引表;檢索器將根據用戶的查詢請求和條件,從索引庫中快速檢索出網頁,并通過網頁相似性分析和評價,對輸出的結果進行排序;用戶接口為用戶提供一個輸入查詢請求和顯示查詢結果的用戶界面。
根據信息搜索范圍,搜索引擎可以分為通用搜索引擎和主題搜索引擎,通用搜索引擎的搜索范圍比較廣泛,但搜索出的無關信息較多;主題搜索引擎是針對特定主題的信息搜索,具有“專、精、深”特點。按照信息搜索方式和服務提供方式,搜索引擎可以分為目錄搜索引擎、機器人搜索引擎、元搜索引擎等類型,其中,機器人搜索引擎也稱為網絡蜘蛛或網絡爬蟲,也是最常用的搜索引擎。
2.網絡蜘蛛
網絡蜘蛛也稱網絡爬蟲,是搜索引擎的核心部件。在搜索引擎中,網絡蜘蛛主要負責搜集網頁、圖片和文檔等信息。其搜集過程是從給定的起始URL開始,沿著網頁中的鏈接,按照一定的搜索策略進行遍歷搜索,下載相應的網頁,解析出網頁中的超鏈接URL,將那些未訪問過的URL加入到待搜索隊列中,然后再搜索其他鏈接指向的網頁,循環往復。整個過程如同一個蜘蛛在蜘蛛網(Web)上爬行。
網絡蜘蛛在搜集網頁時采用兩種搜索策略:深度優先搜索策略和廣度優先搜索策略。深度優先搜索策略是指網絡蜘蛛從起始網頁開始,一個鏈接一個鏈接地搜索下去,處理完這條路徑之后再轉入下一個起始網頁,繼續跟蹤鏈接,直到遍歷所有的網頁及鏈接,搜索過程結束;廣度優先搜索策略是指網絡蜘蛛從起始網頁開始,首先搜索完一個網頁中所有的鏈接,然后再繼續搜索下一層,直到底層為止。廣度優先搜索策略通常是網絡蜘蛛的最佳搜索策略,不僅容易實現,并且還能夠實現并行處理,提高其搜索速度。
網絡蜘蛛同樣也可分為通用蜘蛛和主題蜘蛛,與通用蜘蛛相比,主題蜘蛛更加專業化和可定制化。通用蜘蛛的目標是盡可能多地采集網頁信息,而不太關注網頁采集的順序和被采集網頁的主題。主題蜘蛛能夠定向性地采集與主題相關的網頁,忽略無關的網頁,并且還可以根據主題相似度值進行優先采集。
3.網頁搜索算法
網頁搜索算法是網絡蜘蛛的核心,它采用一定的搜索策略來搜集網頁資源,盡可能多地搜集與主題相關的網頁,同時也要盡可能少地搜集無關的網頁,以保證網頁的搜集質量。目前,人們提出了多種搜索策略,如基于鏈接結構評價的搜索策略、基于網頁內容評價的搜索策略等。
基于鏈接結構評價的搜索策略是利用Web結構信息來指導搜索,并通過分析Web網頁之間的相互引用關系來評價網頁和鏈接的重要性。這種策略的基本思想來自于文獻計量學的引文分析理論,將引文分析理論應用于Web環境時,主要采用基于鏈接結構的評價方法。采用這種策略的搜索算法有PageRank算法、HITS(Hyperlink-Induced Topic Search)算法等,這兩種算法的共同點是利用網頁之間的引用關系來確定鏈接的重要性,充分考慮了鏈接的結構特征,但也存在一些缺陷:一是忽略了網頁與主題的相關性,在某些情況下,可能會出現搜索偏離主題的“主題漂移”問題;二是計算復雜度將隨訪問網頁和鏈接數量的增長呈指數級增長。
基于網頁內容評價的搜索策略是利用網頁文本內容作為領域知識來指導搜索,并根據網頁文本與主題之間相似度的高低來評價鏈接價值的高低。采用這種策略的搜索算法有Fish Search算法、Shark Search算法等,Fish Search算法是一種基于客戶端的搜索算法,根據用戶的種子站點和查詢的關鍵詞或短語,將包含查詢字符串的頁面看作與主題相關,計算該網頁與主題的相似度,動態地維護待搜集URL隊列。Shark Search算法是對Fish Search算法的一種改進,主要改進了網頁與查詢信息相似度計算方法。
4.網頁相似度計算
在主題蜘蛛中,需要對搜集的網頁內容與查詢的主題內容進行相似度計算,判別它們是否相關。因此需要采用適當的表示模型來描述文本,使之能夠對網頁內容和查詢內容之間的相似度進行量化計算,準確地評估網頁相關性。常用的表示模型是向量空間模型(VSM),該模型具有算法簡單、計算復雜度低等特點,比較適合對網頁文本內容進行實時處理。
在向量空間模型中,通過稱為項的向量來表示用戶的查詢要求和文檔信息,根據向量空間的相似度大小來排列查詢結果。項也稱為特征詞,作為表示文檔內容特征的基本語言單位,如字、詞、詞組或短語等。向量空間模型將查詢詞和文檔按照特征詞的維度分別進行向量化,然后通過適當的相似度度量方法計算出文檔與查詢詞的相似度,優先檢索那些與查詢詞相似度大的文檔,并按照與查詢詞的相似度對檢索出的文檔進行排序。向量空間模型不僅可以方便地產生有效的查詢效果,而且還能提供相關文檔的文摘,對查詢結果進行分類,為用戶提供準確定位所需的信息。
在網頁相似度計算時,首先需要對一個句子進行分詞處理,即按照詞的含義對一個句子進行切分,將連續的字串或序列按照一定的規范重新組合成詞序列,以便機器理解。漢語分詞比英文要復雜,常用的漢語分詞方法有正向最大匹配分詞、逆向最大匹配分詞和基于統計的詞網格分詞等。
綜上所述,網絡信息采集技術應用比較廣泛,技術也比較成熟。由于網絡輿情主要是通過網絡新聞、微博、網絡論壇等網絡媒體進行傳播的,這些網絡媒體通常為動態網頁,以松散的非結構化信息為主題,使得對動態網頁的信息采集存在一定的困難,一些搜索引擎采取消極的規避策略來盡量避免過多地采集動態頁面信息,這樣會影響到信息采集的準確率和覆蓋率。另外,新浪微博等微博平臺出于保護用戶隱私信息的目的,對微博信息的采集進行了限制,也影響到對微博輿情監測與分析效果。
1.4.3 話題檢測與跟蹤技術
話題檢測與跟蹤(TDT)的研究最初是由美國國防高級研究計劃署(DARPA)發起的,旨在沒有人工干預的情況下自動檢索、判斷和識別新聞數據流中的話題,通過每年舉行的TDT測評會議,發表和展示TDT研究成果,并確定TDT研究方向和課題,以及TDT測評任務。TDT測評會議共設立了6項測評任務,即:新事件檢測(New Event Detection)、報道關系檢測(Story Link Detection)、話題檢測(Topic Detection)、話題跟蹤(Topic Tracking)、自適應話題跟蹤(Adaptive Topic Tracking)和層次話題檢測(Hierarchical Topic Detection),其中話題檢測與話題跟蹤是核心問題。
TDT技術的最初應用主要是新聞出版領域,用于新聞流的話題檢測和事件跟蹤。后來被擴展到互聯網上,用于檢測和跟蹤以話題詞為中心的互聯網新聞熱點話題以及流行詞,因此成為網絡輿情分析中的重要技術。
TDT是從一篇文章的主題作為切入點,通過對文章主題的發現和跟蹤,把各種分散的信息進行有效的匯集,并且組織成線索提供給用戶進行查閱,厘清一個主題事件的來龍去脈,把握整個事件的整體和細節。例如,在網絡輿情監測中,通過TDT技術對各種信息源的監測和分析,從中識別出針對某一突發事件的各種報道,并對事件的演化過程進行跟蹤。TDT技術還可以應用于證券市場分析等領域,用途比較廣泛。
TDT技術主要涉及報道和話題的表示模型、相似度計算、特征項權重計算、話題和報道間的相似度計算、文本分類與聚類的策略選擇等相關技術。
1.表示模型
為了判斷一個報道是否與某一話題相關,首先需要使用適當的模型來表示報道和話題,以便對兩者的相關性進行計算和比較。常用的表示模型有向量空間模型和語言模型。其中,語言模型是一種概率模型,語言模型的基本思想是對于在某一報道中出現的詞,采用期望最大化(EM)等算法來分別估算該詞在某個話題所有報道的概率分布和在整個語料庫中的概率分布,可以得到某一報道討論該話題的概率,這樣就構成了一個詞的生成模型。
在話題檢測與跟蹤中,人們提出了多種語言模型,如隱馬爾可夫模型、指數語言模型、層次語言模型、語義模型等,其中效果較好的是LDA(Latent Dirichlet Allocation)模型。
2.相似度計算
在TDT中,為了判斷某個報道屬于哪個主題,首先需要采用某種相似度度量方法來計算報道和主題之間的相似度,然后將相似度值和閾值進行比較,最后做出判斷。相似度度量方法有很多種,TDT中常用的相似度度量方法有內積、Dice系數、Jaccard系數、余弦系數以及歐幾里得度量等。
3.特征項選取
在向量空間模型中,使用特征項來表示文本向量空間中的各個維度,因此特征項選取方法非常關鍵。直接使用分詞和詞頻統計方法來得到特征項,可能造成向量空間維度比較大,給后續處理帶來很大的計算開銷,還會影響到分類和聚類算法的性能。因此,需要對文本向量做凈化處理,在保證原文含義的基礎上,找出最具代表性的文本特征項。這個問題歸結為找到一種低維度的特征選擇方法。最常用的特征選取方法是統計方法,這種方法比較精確,人為因素的干擾較少,尤其適合于文本自動分類挖掘。
基于統計的特征選取方法通過構造評估函數,對特征集合中的每個特征進行評估和打分,這樣每個詞語都獲得一個評估值,又稱為權值。然后將所有特征按權值大小排序,提取預定數目的最優特征作為提取結果的特征子集。這種方法關鍵是評估函數的性能,決定了文本特征提取的效果。這類算法主要有文檔頻率(DF)、信息增益(IG)、互信息(MI)、卡方檢驗(CHI)等,其中CHI、IG和DF的性能較好。
4.文本聚類
話題檢測是一個文本聚類問題,其任務是將某個話題的所有報道自動歸入一個話題類,它是在事先沒有分類體系和訓練語料的情況下對報道進行聚類分析,給出一個最佳的劃分,而不需要預先對文檔類別進行標注。
文本聚類是一種無監督的學習過程,不需要預先對文檔進行手工標注類別,即不依賴于文檔集合劃分的先驗知識,僅僅根據文檔集合內部的文檔對象彼此之間相似度關系并按照某種準則進行文檔集合劃分。文本聚類劃分主要依據于這樣的聚類假設:同類中的文檔彼此之間的相似度較大,而不同的類之間的文檔相似度較小。由于文本聚類分析不需要事先定義文檔類別,對獲取大規模多元數據集合的結構特征是有效的,能夠發現數據之間所隱含的某些關系,因此在數據挖掘和知識發現領域中得到了廣泛應用。
典型的文本聚類過程可以分為三個步驟:文本表示、聚類算法和效果評估。文本表示是指使用向量空間模型等文本表示模型,把文檔表示成聚類算法能夠處理的形式;聚類算法是指使用無監督學習算法對文檔集合進行劃分,文本聚類算法有很多種,常用的算法有層次方法、劃分方法、基于密度的方法、基于網格的方法、基于模型的方法等;效果評估是指使用準確率、召回率、漏報率和誤報率等測評指標來評價聚類的效果,也是對聚類算法性能的評價。
5.文本分類
話題跟蹤是一個文本分類問題,其任務是判斷某個報道是描述了一個新話題還是對某個舊話題的進一步跟蹤報道。話題跟蹤是一種特殊的文本分類過程,與傳統的文本分類過程相比,話題跟蹤中的文本分類是面向話題而不是面向概念更寬泛的主題,判斷的依據更具體、粒度更細,處理的對象是動態的、隨時間變化的報道流,而不是靜態的文本集合。因此,在話題檢測和跟蹤中,不遺漏信息更為重要。
文本分類是一種有監督的學習過程,需要事先給定一個分類體系和一個標注好類別的文本集合,利用這些資源來構造一個分類器,將待分類文本歸入不同的、預先定義的類別中,可以把這種分類過程稱為文本歸類。
文本分類過程可以分為手工分類和自動分類,手工分類首先由專家定義分類體系,然后由人工進行網頁分類。這種方法需要大量的人力,現實中已經很少采用了。自動文本分類方法大致可以分為兩類:知識工程方法和機器學習方法。兩者相比,機器學習方法能夠達到相似的精確度,并減少了大量的人工參與,成為文本分類的主流方法。
典型的文本分類過程可以分為三個步驟:文本表示、分類器構建和效果評估,其中文本表示和效果評估的方法與文本聚類相同,而分類器構建是文本分類中關鍵的環節,應當根據所要解決問題的特點來選擇一個分類器。在選定構建方法之后,在訓練集上為每個類別構建分類器,然后把分類器應用于測試集上,得到分類結果。在文本分類中使用的學習算法有多種,如Rocchio算法、k最近鄰居(KNN)、決策樹、簡單貝葉斯、神經網絡、最大熵、支持向量機(SVM)等。其中,比較常用的是Rocchio、KNN、決策樹、SVM等算法。
事實上,每種分類算法都有各自的長處和局限性,它們經常可以互為補充。實際應用和算法實驗表明,在文本分類中,KNN方法和多種方法的組合具有較好的性能。
1.4.4 文本情感分析技術
在網絡輿情監測中,對于一個突發社會公共事件引發的網絡輿情,網民所持有的情感傾向性往往是多元化的,包括正面或負面、贊揚或批評、支持或質疑、肯定或否定等。通過文本情感分析技術,能夠自動識別出其情感傾向性,并給出分類統計結果,有助于及時采取應對措施。
文本情感分析技術主要研究如何對文本所表達的觀點、情感、立場、態度等主觀性信息進行自動分析,從海量文本中識別出人們對某一事件或政策等所持有的觀點是褒義還是貶義,提高對文本情感分析的效率。文本情感分析技術涉及自然語言處理、計算語言學、人工智能、機器學習、信息檢索、數據挖掘等多個研究領域,屬于交叉性技術。
文本情感分析可以分為詞語情感分析、句子情感分析、段落情感分析、文檔情感分析等不同的層次。
詞語情感分析的對象是在特定的句子中出現的詞和短語。表達情感的詞大多是名詞、動詞、副詞和形容詞,其情感傾向可以分為褒義、貶義和中性等三類,詞語情感分析包括對詞的情感極性、情感強度以及上下文模式等進行分析。在詞語情感分析時,需要借助于標注有傾向性的情感詞典,通常是面向領域應用來構建情感詞典。在構建情感詞典時,大多采用在已有的電子詞典或詞庫上進行擴展的方式。例如,在知網(HowNet)的知識庫上進行擴展。
句子情感分析的對象是在特定的上下文中出現的句子,其目的是通過分析句子中的各種主觀性信息,判斷該句子是主觀句還是客觀句。對于主觀句,進一步提取出句子中的主觀關系,實現對句子的情感傾向的判斷,同時還要分析與情感傾向性相關的各個要素,如評價對象、情感極性、情感強度等。由于文本情感分析的對象是主觀句。因此,主題句、主觀句以及主觀關系等識別和提取是句子情感分析的基礎。
段落情感分析的對象是經過文本分割后的語義段而不是自然段落。由于語義段之間存在著語義聯系,因此有助于對文本情感進行細化分析。在語義段情感分析時,以語義段中的句子為基本單元,通過計算句子情感值和語義段情感值,最終得到文本的全局情感值,實現對整個文本的情感分析。
文檔情感分析的對象是一篇完整的文章,從整體上分析某個文章的情感傾向性。由于文檔情感分析屬于文本分類問題,通常采用機器學習方法,如樸素貝葉斯、最大熵、支持向量機等方法來解決文本情感分析問題,首先構建語料庫,人工標注語料庫中每個文本的情感傾向,并將語料庫分為訓練集和測試集,然后對模型進行訓練和算法測試,對模型和算法的文檔情感傾向識別能力進行評價。
在文本情感分析中,主要采用有監督的機器學習算法來識別文本中的評價對象及情感傾向。這種方法需要事先由人工標注語料庫的情感傾向,作為訓練樣本,不同領域的訓練樣本也不同。然后構造一個分類器算法,經過自動訓練后,對待分析文本的情感傾向進行分類識別。這種方法的優點是簡單易行、識別準確率較高,整體效果較好。但是該方法依賴于人工標注的語料庫,而人工標注語料庫費時費力,并且缺乏標注標準,語料庫標注格式也不統一。
另外,在文本情感分析中可以采用語言建模方法,它采用統計學和概率論方法對自然語言進行建模分析,發掘出自然語言中的規律和特性,解決自然語言信息處理中的特定問題。語言建模技術已被廣泛應用于語音識別、光學字符識別、手寫字識別、機器翻譯、文本分類以及文本檢索等諸多領域,成為自然語言信息處理的主流技術之一。在基于語言建模的文本情感分析中,首先選擇一種統計類語言模型作為基本語言模型,然后在標注有褒貶傾向的訓練文本集上對情感模型進行估計。對于每一個測試文本,比較其語言模型與情感模型之間的相似度,如果與某個情感模型更為相似,則認為該文本的褒貶傾向與這個模型的褒貶傾向相一致,從而實現對文本情感傾向的識別。
由于文本情感分析技術將文本的情感傾向分為褒義和貶義兩類,對于網絡輿情監測中來說,還不夠細致。在此基礎上,還需要通過人工做進一步的統計分析。