官术网_书友最值得收藏!

2.2 相關(guān)研究介紹

經(jīng)過上一節(jié)的分析可知,評價(jià)目標(biāo)(主題)和觀點(diǎn)極性是用戶評論中用戶要表達(dá)的兩個主要信息。既然評價(jià)目標(biāo)就是要討論的主題,用戶發(fā)表的又是對主題的觀點(diǎn),那么一項(xiàng)方案就是采用概率混合模型同時對評價(jià)目標(biāo)和觀點(diǎn)極性聯(lián)合建模。很多研究工作都在LDA(Latent Dirichlet Allocation)模型的基礎(chǔ)上提出各種變體來處理聯(lián)合建模問題。[68][104-108]由于方法變體眾多,Moghaddam等人對相關(guān)的研究工作進(jìn)行了梳理分析,并根據(jù)相關(guān)特性對這些方法進(jìn)行了歸類。其依據(jù)的特性包括以下幾方面:

?用一個潛在變量建模詞(短語)/分別用不同的變量建模評價(jià)目標(biāo)短語和評價(jià)星級。

?采用語料中所有的詞/只對觀點(diǎn)表達(dá)短語采樣。

?對目標(biāo)詞與評價(jià)星級間的依存關(guān)系建模/不考慮依存關(guān)系。

?僅使用待分析的評論文本訓(xùn)練/額外使用其他輔助數(shù)據(jù)訓(xùn)練。

由于前兩項(xiàng)特性屬于內(nèi)在特性,后兩項(xiàng)為外部知識和外部數(shù)據(jù)的取舍,需要人工干預(yù),因此根據(jù)后兩項(xiàng)特性劃分標(biāo)準(zhǔn),WSTM屬于不考慮依存關(guān)系且不使用附加輸入數(shù)據(jù)這類方法。

根據(jù)此劃分,與WSTM模型同類的相關(guān)方法主要有以下幾個代表性的工作:

(1)JST(Joint Sentiment-Topic Model)。此模型是基于LDA的三層級結(jié)構(gòu),也就是在文檔層與主題層之間加入一個附加的情感層。[69]在此四層結(jié)構(gòu)中,情感極性與文檔相關(guān),主題與情感極性相關(guān),而詞同時與情感極性和主題相關(guān)。

(2)ASUM(Aspect and Sentiment Unification Model)。此模型由Jo等人[66]提出,和JST一樣由四層結(jié)構(gòu)組成。與JST模型不同之處在于,ASUM模型認(rèn)為同一個句子中的詞都用于描述同一個話題,JST則允許各個詞來自不同的話題。在WSTM模型當(dāng)中,保留ASUM中部分假設(shè),即約束來自同一個句子的詞對具有相同的觀點(diǎn)極性,而只要求一個詞對中的兩個詞來描述同一個主題。

(3)STDP(Senti-Topic model with Decomposed Prior)。Li等人[109]提出此模型,他們將觀點(diǎn)極性的生成過程分解為兩個層級。第一層先檢測一個詞是屬于情感詞還是主題詞,如果是情感詞,則在第二層中識別詞的極性標(biāo)簽。在本書的模型當(dāng)中,本書認(rèn)為極性標(biāo)簽是由情感詞和主題詞共同決定的。STDP需要人工構(gòu)造先驗(yàn)知識來檢測一個詞是情感詞還是主題詞,且這樣生成的先驗(yàn)規(guī)則并不一定適合所有領(lǐng)域和不同語言(如中文與英語)。本書試圖最小化人工參與的監(jiān)督訓(xùn)練行為,因此WSTM模型除了使用一個公共可用的情感詞典外,不再使用任何規(guī)則。

上面提到的三個模型主要針對足夠長的傳統(tǒng)媒體文本,如電影評論、餐館評論等(具體評測數(shù)據(jù)統(tǒng)計(jì)信息請查閱三個模型對應(yīng)的文獻(xiàn))。在不考慮短文本稀疏問題的情況下,一個模型學(xué)習(xí)過程中沒有足夠數(shù)量的詞統(tǒng)計(jì)信息發(fā)現(xiàn)詞之間的主題相關(guān)性。這個問題會進(jìn)一步影響情感極性的識別。為了克服建模單文檔生成過程中遇到的文本稀疏問題,本書采用類似BTM模型[103]中的方法,即對整個語料級別的詞對生成過程建模。不同之處在于,本書的混合模型聯(lián)合檢測情感與主題,BTM僅考慮主題信息。

最近的一些其他主題建模工作[12][84-86][101][110-115]也考慮到了短文本中的詞稀疏問題。其中,一種方法是通過聚集短小的twitter文本形成長的偽文檔,然后采用標(biāo)準(zhǔn)LDA進(jìn)行主題分析,有效地發(fā)現(xiàn)主題文獻(xiàn)。[84][85]Zhao等人[101]提出twitter-LDA模型,在標(biāo)準(zhǔn)LDA模型中加入了用戶層,不同的用戶所關(guān)心的主題分布不同,同時通過一個隱藏變量區(qū)分了背景詞與主題詞。Tang等人[111]將不同類型的上下文(如時間、用戶、hashtag)看作語料的不同視點(diǎn),提出一個協(xié)同正則化框架來結(jié)合多個視點(diǎn)共同分析文本討論的主題。Mehrotra等人[112]和Wang等人[113]則利用用戶提供的hashtag作為半監(jiān)督的信息,前者對tweeter進(jìn)行池化(pooling)時利用hashtag信息,后者提出基于hashtag圖來建立詞之間的語義關(guān)系。Lin等人提出雙向稀疏主題模型來處理文本中主題稀疏的問題,主要用于發(fā)現(xiàn)文本中重要的主題和詞匯。Quan等人[115]通過主題推斷的方式來集合文本,其模型分為兩個階段,第一階段從常規(guī)主題模型進(jìn)行主題推斷,第二階段從偽文檔中生成文本片斷用來對應(yīng)實(shí)際的短篇文本。然而,這些工作都只是建模文本中的主題信息,并不考慮情感信息,且大部分方法都是應(yīng)用于其他任務(wù)和領(lǐng)域。Lim等人[86]同時對主題和情感建模,但其文本聚集的方法依賴twitter文本中的hashtag,無法應(yīng)用于評論文本分析。

主站蜘蛛池模板: 慈溪市| 岱山县| 阜平县| 双流县| 曲水县| 萨迦县| 红原县| 三原县| 托克逊县| 芜湖市| 嘉兴市| 巨鹿县| 晋中市| 萝北县| 富锦市| 图木舒克市| 拜泉县| 巫山县| 灌云县| 孙吴县| 富宁县| 电白县| 城口县| 曲靖市| 武乡县| 和林格尔县| 历史| 枣阳市| 卢龙县| 石渠县| 东明县| 岐山县| 淮阳县| 德钦县| 青田县| 冷水江市| 海南省| 汽车| 遵化市| 靖宇县| 曲沃县|