- 面向社交媒體的觀點(diǎn)分析技術(shù)研究
- 熊蜀峰
- 1597字
- 2021-10-29 10:42:53
2.2 相關(guān)研究介紹
經(jīng)過上一節(jié)的分析可知,評價(jià)目標(biāo)(主題)和觀點(diǎn)極性是用戶評論中用戶要表達(dá)的兩個主要信息。既然評價(jià)目標(biāo)就是要討論的主題,用戶發(fā)表的又是對主題的觀點(diǎn),那么一項(xiàng)方案就是采用概率混合模型同時對評價(jià)目標(biāo)和觀點(diǎn)極性聯(lián)合建模。很多研究工作都在LDA(Latent Dirichlet Allocation)模型的基礎(chǔ)上提出各種變體來處理聯(lián)合建模問題。[68][104-108]由于方法變體眾多,Moghaddam等人對相關(guān)的研究工作進(jìn)行了梳理分析,并根據(jù)相關(guān)特性對這些方法進(jìn)行了歸類。其依據(jù)的特性包括以下幾方面:
?用一個潛在變量建模詞(短語)/分別用不同的變量建模評價(jià)目標(biāo)短語和評價(jià)星級。
?采用語料中所有的詞/只對觀點(diǎn)表達(dá)短語采樣。
?對目標(biāo)詞與評價(jià)星級間的依存關(guān)系建模/不考慮依存關(guān)系。
?僅使用待分析的評論文本訓(xùn)練/額外使用其他輔助數(shù)據(jù)訓(xùn)練。
由于前兩項(xiàng)特性屬于內(nèi)在特性,后兩項(xiàng)為外部知識和外部數(shù)據(jù)的取舍,需要人工干預(yù),因此根據(jù)后兩項(xiàng)特性劃分標(biāo)準(zhǔn),WSTM屬于不考慮依存關(guān)系且不使用附加輸入數(shù)據(jù)這類方法。
根據(jù)此劃分,與WSTM模型同類的相關(guān)方法主要有以下幾個代表性的工作:
(1)JST(Joint Sentiment-Topic Model)。此模型是基于LDA的三層級結(jié)構(gòu),也就是在文檔層與主題層之間加入一個附加的情感層。[69]在此四層結(jié)構(gòu)中,情感極性與文檔相關(guān),主題與情感極性相關(guān),而詞同時與情感極性和主題相關(guān)。
(2)ASUM(Aspect and Sentiment Unification Model)。此模型由Jo等人[66]提出,和JST一樣由四層結(jié)構(gòu)組成。與JST模型不同之處在于,ASUM模型認(rèn)為同一個句子中的詞都用于描述同一個話題,JST則允許各個詞來自不同的話題。在WSTM模型當(dāng)中,保留ASUM中部分假設(shè),即約束來自同一個句子的詞對具有相同的觀點(diǎn)極性,而只要求一個詞對中的兩個詞來描述同一個主題。
(3)STDP(Senti-Topic model with Decomposed Prior)。Li等人[109]提出此模型,他們將觀點(diǎn)極性的生成過程分解為兩個層級。第一層先檢測一個詞是屬于情感詞還是主題詞,如果是情感詞,則在第二層中識別詞的極性標(biāo)簽。在本書的模型當(dāng)中,本書認(rèn)為極性標(biāo)簽是由情感詞和主題詞共同決定的。STDP需要人工構(gòu)造先驗(yàn)知識來檢測一個詞是情感詞還是主題詞,且這樣生成的先驗(yàn)規(guī)則并不一定適合所有領(lǐng)域和不同語言(如中文與英語)。本書試圖最小化人工參與的監(jiān)督訓(xùn)練行為,因此WSTM模型除了使用一個公共可用的情感詞典外,不再使用任何規(guī)則。
上面提到的三個模型主要針對足夠長的傳統(tǒng)媒體文本,如電影評論、餐館評論等(具體評測數(shù)據(jù)統(tǒng)計(jì)信息請查閱三個模型對應(yīng)的文獻(xiàn))。在不考慮短文本稀疏問題的情況下,一個模型學(xué)習(xí)過程中沒有足夠數(shù)量的詞統(tǒng)計(jì)信息發(fā)現(xiàn)詞之間的主題相關(guān)性。這個問題會進(jìn)一步影響情感極性的識別。為了克服建模單文檔生成過程中遇到的文本稀疏問題,本書采用類似BTM模型[103]中的方法,即對整個語料級別的詞對生成過程建模。不同之處在于,本書的混合模型聯(lián)合檢測情感與主題,BTM僅考慮主題信息。
最近的一些其他主題建模工作[12][84-86][101][110-115]也考慮到了短文本中的詞稀疏問題。其中,一種方法是通過聚集短小的twitter文本形成長的偽文檔,然后采用標(biāo)準(zhǔn)LDA進(jìn)行主題分析,有效地發(fā)現(xiàn)主題文獻(xiàn)。[84][85]Zhao等人[101]提出twitter-LDA模型,在標(biāo)準(zhǔn)LDA模型中加入了用戶層,不同的用戶所關(guān)心的主題分布不同,同時通過一個隱藏變量區(qū)分了背景詞與主題詞。Tang等人[111]將不同類型的上下文(如時間、用戶、hashtag)看作語料的不同視點(diǎn),提出一個協(xié)同正則化框架來結(jié)合多個視點(diǎn)共同分析文本討論的主題。Mehrotra等人[112]和Wang等人[113]則利用用戶提供的hashtag作為半監(jiān)督的信息,前者對tweeter進(jìn)行池化(pooling)時利用hashtag信息,后者提出基于hashtag圖來建立詞之間的語義關(guān)系。Lin等人提出雙向稀疏主題模型來處理文本中主題稀疏的問題,主要用于發(fā)現(xiàn)文本中重要的主題和詞匯。Quan等人[115]通過主題推斷的方式來集合文本,其模型分為兩個階段,第一階段從常規(guī)主題模型進(jìn)行主題推斷,第二階段從偽文檔中生成文本片斷用來對應(yīng)實(shí)際的短篇文本。然而,這些工作都只是建模文本中的主題信息,并不考慮情感信息,且大部分方法都是應(yīng)用于其他任務(wù)和領(lǐng)域。Lim等人[86]同時對主題和情感建模,但其文本聚集的方法依賴twitter文本中的hashtag,無法應(yīng)用于評論文本分析。
- 中國新聞業(yè)年度觀察報(bào)告(2019)
- 出版工作七十年
- 文學(xué)教育:新媒體時代的探索與實(shí)踐:首都師范大學(xué)文學(xué)院教育教學(xué)改革研究論文集
- 新聞傳播學(xué)的學(xué)術(shù)想象與教育反思
- 中國少數(shù)民族地區(qū)信息傳播與社會發(fā)展論叢
- 輿論引導(dǎo)新論
- 新媒體與社會(第三輯)
- 出版實(shí)踐探索與思考
- 科技與傳播
- 世界主要媒體的國際傳播戰(zhàn)略
- 童年的消逝
- 社交媒體使用行為研究:互動、表達(dá)與表露
- 全球媒體倫理規(guī)范譯評
- 電視財(cái)經(jīng)欄目研究
- 物質(zhì)技術(shù)視閾中的文學(xué)景觀:近代出版與小說研究