- 面向社交媒體的觀點分析技術研究
- 熊蜀峰
- 21字
- 2021-10-29 10:42:52
第2章 面向產品評論分析的短文本情感主題模型
2.1 引言
近年來,隨著社交媒體的興起,人們彼此之間越來越多地通過網絡分享意見、見解、經驗和觀點。以微博為例,人們通常喜歡在個人微博中發表對事情的看法,表達對某件事、某件商品的評價。以在線購物為例,由于消費者無法親身觀察和查驗產品質量,來自其他消費者對該產品的評價就成為在線消費決策不可或缺的信息。完全依靠人工來分析社交媒體信息中的用戶觀點信息既費時又費力,對此,觀點挖掘技術從自動分析處理信息的角度提供了一種解決方案。觀點挖掘的目標是檢測出文本中針對某一話題所表達的觀點(情感)信息,分析的粒度可以分為文檔、句子和元素級三個級別[2][13][14][96]。
如第一章所述,弱監督主題學習和文檔級情感面臨著文本稀疏問題。
學者雖然提出了一些解決方案,但在處理社交媒體數據時,還需要面對主題情感聯合建模中的文本稀疏問題。事實上,社交媒體中大部分觀點文本都具有鮮明的觀點和簡潔的表達,特別是微博和用戶評論。微博自產生時其長度就被限制為短短的140個字,隨著移動互聯網終端的廣泛使用,評論文本的長度也變得越來越短[94]。
基于主題建模的很多研究工作已經注意到文本稀疏現象,一種解決方案是將短文本連接成較長的偽文檔,使用偽文檔作為模型的輸入來采樣生成過程[84-85];另一種方案則基于另一個假設,即一段短文本僅描述一個唯一的討論話題[101-102]。此外,最近的一項研究工作[103]中,采用一次采樣一個詞對的方式來建模詞對在語料中的共現。上述這些研究都只是對短文本中的主題進行建模。在本書的方法中,則是通過對全局的詞對生成過程建模來進行情感極性和主題的聯合檢測。
在本書的工作中,集中研究文檔級別的情感分類和主題建模,提出一個弱監督的詞對情感主題模型(Word-pair Sentiment-Topic Model, WSTM)。該模型是一個概率混合模型,通過直接對全局范圍內的詞對(word-pair)生成過程建模來學習短文本中的情感和主題信息。一個詞對是指在特定的上下文中的兩個無序的共現詞。具體而言,本書先將整個語料看成一個共現詞對集合(a bag of co-occurred word-pairs),然后對共現詞對集合的生成過程進行建模,即通過一個混合模型依次采樣語料中的每一個詞對,該混合模型包括一組主題語言模型和一組情感語言模型,通過學習WSTM模型,得到語料級別的情感—主題組成信息和全局的情感主題分布信息,進而推導出每個文檔的情感分布和主題分布。本書在兩個評論文本數據集上對提出的方法進行了評估。實驗結果表明,WSTM能夠準確地發現文本中的主題并檢測出觀點極性,檢測準確率明顯高于已知的最新的同類方法。