澳门白菜网送体验金网站

書名：面向社交媒體的觀點(diǎn)分析技術(shù)研究
作者名：熊蜀峰
本章字?jǐn)?shù)： 1597字
更新時間： 2021-10-29 10:42:53

2.2 相關(guān)研究介紹

經(jīng)過上一節(jié)的分析可知，評價(jià)目標(biāo)（主題）和觀點(diǎn)極性是用戶評論中用戶要表達(dá)的兩個主要信息。既然評價(jià)目標(biāo)就是要討論的主題，用戶發(fā)表的又是對主題的觀點(diǎn)，那么一項(xiàng)方案就是采用概率混合模型同時對評價(jià)目標(biāo)和觀點(diǎn)極性聯(lián)合建模。很多研究工作都在LDA（Latent Dirichlet Allocation）模型的基礎(chǔ)上提出各種變體來處理聯(lián)合建模問題。[68][104-108]由于方法變體眾多，Moghaddam等人對相關(guān)的研究工作進(jìn)行了梳理分析，并根據(jù)相關(guān)特性對這些方法進(jìn)行了歸類。其依據(jù)的特性包括以下幾方面：

?用一個潛在變量建模詞（短語）/分別用不同的變量建模評價(jià)目標(biāo)短語和評價(jià)星級。

?采用語料中所有的詞/只對觀點(diǎn)表達(dá)短語采樣。

?對目標(biāo)詞與評價(jià)星級間的依存關(guān)系建模/不考慮依存關(guān)系。

?僅使用待分析的評論文本訓(xùn)練/額外使用其他輔助數(shù)據(jù)訓(xùn)練。

由于前兩項(xiàng)特性屬于內(nèi)在特性，后兩項(xiàng)為外部知識和外部數(shù)據(jù)的取舍，需要人工干預(yù)，因此根據(jù)后兩項(xiàng)特性劃分標(biāo)準(zhǔn)，WSTM屬于不考慮依存關(guān)系且不使用附加輸入數(shù)據(jù)這類方法。

根據(jù)此劃分，與WSTM模型同類的相關(guān)方法主要有以下幾個代表性的工作：

（1）JST（Joint Sentiment-Topic Model）。此模型是基于LDA的三層級結(jié)構(gòu)，也就是在文檔層與主題層之間加入一個附加的情感層。[69]在此四層結(jié)構(gòu)中，情感極性與文檔相關(guān)，主題與情感極性相關(guān)，而詞同時與情感極性和主題相關(guān)。

（2）ASUM（Aspect and Sentiment Unification Model）。此模型由Jo等人[66]提出，和JST一樣由四層結(jié)構(gòu)組成。與JST模型不同之處在于，ASUM模型認(rèn)為同一個句子中的詞都用于描述同一個話題，JST則允許各個詞來自不同的話題。在WSTM模型當(dāng)中，保留ASUM中部分假設(shè)，即約束來自同一個句子的詞對具有相同的觀點(diǎn)極性，而只要求一個詞對中的兩個詞來描述同一個主題。

（3）STDP（Senti-Topic model with Decomposed Prior）。Li等人[109]提出此模型，他們將觀點(diǎn)極性的生成過程分解為兩個層級。第一層先檢測一個詞是屬于情感詞還是主題詞，如果是情感詞，則在第二層中識別詞的極性標(biāo)簽。在本書的模型當(dāng)中，本書認(rèn)為極性標(biāo)簽是由情感詞和主題詞共同決定的。STDP需要人工構(gòu)造先驗(yàn)知識來檢測一個詞是情感詞還是主題詞，且這樣生成的先驗(yàn)規(guī)則并不一定適合所有領(lǐng)域和不同語言（如中文與英語）。本書試圖最小化人工參與的監(jiān)督訓(xùn)練行為，因此WSTM模型除了使用一個公共可用的情感詞典外，不再使用任何規(guī)則。

上面提到的三個模型主要針對足夠長的傳統(tǒng)媒體文本，如電影評論、餐館評論等(具體評測數(shù)據(jù)統(tǒng)計(jì)信息請查閱三個模型對應(yīng)的文獻(xiàn))。在不考慮短文本稀疏問題的情況下，一個模型學(xué)習(xí)過程中沒有足夠數(shù)量的詞統(tǒng)計(jì)信息發(fā)現(xiàn)詞之間的主題相關(guān)性。這個問題會進(jìn)一步影響情感極性的識別。為了克服建模單文檔生成過程中遇到的文本稀疏問題，本書采用類似BTM模型[103]中的方法，即對整個語料級別的詞對生成過程建模。不同之處在于，本書的混合模型聯(lián)合檢測情感與主題，BTM僅考慮主題信息。

最近的一些其他主題建模工作[12][84-86][101][110-115]也考慮到了短文本中的詞稀疏問題。其中，一種方法是通過聚集短小的twitter文本形成長的偽文檔，然后采用標(biāo)準(zhǔn)LDA進(jìn)行主題分析，有效地發(fā)現(xiàn)主題文獻(xiàn)。[84][85]Zhao等人[101]提出twitter-LDA模型，在標(biāo)準(zhǔn)LDA模型中加入了用戶層，不同的用戶所關(guān)心的主題分布不同，同時通過一個隱藏變量區(qū)分了背景詞與主題詞。Tang等人[111]將不同類型的上下文（如時間、用戶、hashtag）看作語料的不同視點(diǎn)，提出一個協(xié)同正則化框架來結(jié)合多個視點(diǎn)共同分析文本討論的主題。Mehrotra等人[112]和Wang等人[113]則利用用戶提供的hashtag作為半監(jiān)督的信息，前者對tweeter進(jìn)行池化（pooling）時利用hashtag信息，后者提出基于hashtag圖來建立詞之間的語義關(guān)系。Lin等人提出雙向稀疏主題模型來處理文本中主題稀疏的問題，主要用于發(fā)現(xiàn)文本中重要的主題和詞匯。Quan等人[115]通過主題推斷的方式來集合文本，其模型分為兩個階段，第一階段從常規(guī)主題模型進(jìn)行主題推斷，第二階段從偽文檔中生成文本片斷用來對應(yīng)實(shí)際的短篇文本。然而，這些工作都只是建模文本中的主題信息，并不考慮情感信息，且大部分方法都是應(yīng)用于其他任務(wù)和領(lǐng)域。Lim等人[86]同時對主題和情感建模，但其文本聚集的方法依賴twitter文本中的hashtag，無法應(yīng)用于評論文本分析。

官术网_书友最值得收藏!

面向社交媒體的觀點(diǎn)分析技術(shù)研究

2.2 相關(guān)研究介紹