官术网_书友最值得收藏!

1.3 網(wǎng)絡(luò)輿情分析技術(shù)

1.3.1 網(wǎng)絡(luò)輿情分析的研究熱點(diǎn)

對(duì)于網(wǎng)絡(luò)輿情的特點(diǎn),輿情工作者應(yīng)當(dāng)了然于心,并能對(duì)現(xiàn)實(shí)中出現(xiàn)的各種網(wǎng)絡(luò)輿論做出及時(shí)反饋,防微杜漸,防患于未然。因此,必須利用現(xiàn)代信息技術(shù)對(duì)網(wǎng)絡(luò)輿情予以分析,從而進(jìn)行控制和引導(dǎo)。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵,化為主動(dòng)梳理、引導(dǎo)。

特別是在如今的大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)輿情分析更要用數(shù)據(jù)說(shuō)話,跟蹤網(wǎng)絡(luò)輿情的起源和演變,最終根據(jù)分析給出建議性結(jié)果,為政府、企業(yè)乃至個(gè)人應(yīng)對(duì)輿情提供決策支持。網(wǎng)絡(luò)輿情分析大致有兩個(gè)工作重點(diǎn),一是還原輿情發(fā)展過(guò)程,找到輿情產(chǎn)生的根源;二是預(yù)測(cè),分析出網(wǎng)絡(luò)輿情的未來(lái)走向,再根據(jù)預(yù)測(cè)結(jié)果提出應(yīng)對(duì)方案。

在探討網(wǎng)絡(luò)輿情分析技術(shù)之前,我們先對(duì)輿情分析中幾個(gè)常用的基礎(chǔ)術(shù)語(yǔ)做一個(gè)統(tǒng)一的概念界定。

(1)輿情:通常是指較多群眾關(guān)于現(xiàn)實(shí)社會(huì)及社會(huì)中各種現(xiàn)象、問(wèn)題所表達(dá)的信念、態(tài)度、意見(jiàn)和情緒表現(xiàn)的總和;簡(jiǎn)而言之就是社會(huì)輿論和民情。一個(gè)嚴(yán)格定義是:輿情是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,作為主體的民眾對(duì)作為客體的國(guó)家管理者產(chǎn)生和持有的社會(huì)態(tài)度。

(2)事件(Event):在特定時(shí)間、特定地點(diǎn)發(fā)生的事情。

(3)主題(Topic):也稱為話題,指一個(gè)種子事件或活動(dòng)以及與它直接相關(guān)的事件和活動(dòng)。

(4)熱點(diǎn):也可稱為熱點(diǎn)主題。熱點(diǎn)和主題的概念比較接近,但有所區(qū)別。其主要特點(diǎn)如下:熱點(diǎn)通常是一個(gè)主題,包含種子事件及相關(guān)報(bào)道;熱點(diǎn)和時(shí)間相關(guān),通常指某段時(shí)間內(nèi)的熱點(diǎn),例如當(dāng)天熱點(diǎn)、一周內(nèi)熱點(diǎn);熱點(diǎn)和主題某段時(shí)間內(nèi)的文檔數(shù)量相關(guān)。熱點(diǎn)可以分為絕對(duì)熱點(diǎn)和相對(duì)熱點(diǎn)。其中,絕對(duì)熱點(diǎn)為在某段時(shí)間內(nèi)文檔數(shù)量超過(guò)某個(gè)固定閾值的主題;相對(duì)熱點(diǎn)為按照某種排序方式排名靠前的若干個(gè)主題。

目前,網(wǎng)絡(luò)輿情分析的研究熱點(diǎn)主要包括如下幾方面。

1.主題檢測(cè)與跟蹤

在目前信息爆炸的情況下,信息的來(lái)源已不再是問(wèn)題,而如何快捷準(zhǔn)確地獲取感興趣的信息才是人們關(guān)注的主要問(wèn)題。目前的各種信息檢索、過(guò)濾、提取技術(shù)都是圍繞這個(gè)目的展開(kāi)的。由于網(wǎng)絡(luò)信息數(shù)量太大,與一個(gè)話題相關(guān)的信息往往孤立地分散在很多不同的地方并且出現(xiàn)在不同的時(shí)間,僅通過(guò)這些孤立的信息,人們對(duì)某些事件難以做到全面的把握。一般的檢索工具都是基于關(guān)鍵詞的,返回的信息冗余度過(guò)高,很多不相關(guān)的信息僅僅是因?yàn)楹兄付ǖ年P(guān)鍵詞就被作為結(jié)果返回了,因此人們迫切地希望擁有一種工具,能夠自動(dòng)把相關(guān)話題的信息匯總供人查閱。主題檢測(cè)與跟蹤(Topic Detection and Tracking, TDT)技術(shù)就是在這種情況下應(yīng)運(yùn)而生的。通過(guò)主題發(fā)現(xiàn)與跟蹤,人們可以將這些分散的信息有效地匯集并組織起來(lái),從而幫助用戶發(fā)現(xiàn)事件的各種因素之間的相互關(guān)系,從整體上了解一個(gè)事件的全部細(xì)節(jié)以及該事件與其他事件之間的關(guān)系。簡(jiǎn)言之,主題檢測(cè)與跟蹤任務(wù)的主要工作是準(zhǔn)確地檢測(cè)話題并跟蹤話題的動(dòng)態(tài)演化過(guò)程。

與一般的信息檢索或者信息過(guò)濾不同,TDT所關(guān)心的話題不是一個(gè)大的領(lǐng)域(如美國(guó)的對(duì)華政策)或者某一類事件(如恐怖活動(dòng)),而是一個(gè)很具體的“事件(Event)”,如美國(guó)“9?11事件”、習(xí)近平主席訪美等。與早期面向事件的檢測(cè)與跟蹤(Event Detection and Tracking, EDT)也不同,TDT檢測(cè)與跟蹤的對(duì)象從特定時(shí)間和地點(diǎn)發(fā)生的事件擴(kuò)展為具備更多相關(guān)性外延的話題,相應(yīng)的理論與應(yīng)用研究也同時(shí)從傳統(tǒng)對(duì)于事件的識(shí)別跨越到包含突發(fā)事件及其后續(xù)相關(guān)報(bào)道的話題檢測(cè)與跟蹤。

美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院為T(mén)DT研究設(shè)立了5項(xiàng)基礎(chǔ)性的研究任務(wù),包括面向新聞廣播類報(bào)道的切分任務(wù);面向已知話題的跟蹤任務(wù);面向未知話題的檢測(cè)任務(wù);對(duì)未知話題首次相關(guān)報(bào)道的檢測(cè)任務(wù)和報(bào)道間相關(guān)性的檢測(cè)任務(wù)。

1)報(bào)道切分任務(wù)

報(bào)道切分(Story Segmentation Task, SST)的主要任務(wù)是將原始數(shù)據(jù)流切分成具有完整結(jié)構(gòu)和統(tǒng)一主題的報(bào)道。比如,一段新聞廣播包括對(duì)股市行情、體育賽事和人物明星的分類報(bào)道,SST要求系統(tǒng)能夠模擬人對(duì)新聞報(bào)道的識(shí)別,將這段新聞廣播切分成不同話題的報(bào)道。SST面向的數(shù)據(jù)流主要是新聞廣播,因此切分的方式可以分為兩類:一類是直接針對(duì)音頻信號(hào)進(jìn)行切分;另一類則將音頻信號(hào)翻錄為文本形式的信息流進(jìn)行切分。

2)話題跟蹤任務(wù)

話題跟蹤(Topic Tracking Task, TTT)的主要任務(wù)是跟蹤已知話題的后續(xù)報(bào)道。其中,已知話題沒(méi)有明確的描述,而是通過(guò)若干篇先驗(yàn)的相關(guān)報(bào)道隱含地給定。通常話題跟蹤開(kāi)始之前,為每一個(gè)待測(cè)話題提供1~4篇相關(guān)報(bào)道對(duì)其進(jìn)行描述。同時(shí)還為話題提供了相應(yīng)的訓(xùn)練語(yǔ)料,從而輔助跟蹤系統(tǒng)訓(xùn)練和更新話題模型。在此基礎(chǔ)上,TTT逐一判斷后續(xù)數(shù)據(jù)流中每一篇報(bào)道與話題的相關(guān)性并收集相關(guān)報(bào)道,從而實(shí)現(xiàn)跟蹤功能。

3)話題檢測(cè)任務(wù)

話題檢測(cè)(Topic Detection Task, TD)的主要任務(wù)是檢測(cè)和組織系統(tǒng)預(yù)先未知的話題,TD的特點(diǎn)在于系統(tǒng)欠缺話題的先驗(yàn)知識(shí)。因此,TD系統(tǒng)必須在對(duì)所有話題毫不了解的情況下構(gòu)造話題的檢測(cè)模型,并且該模型不能獨(dú)立于某一個(gè)話題特例。換言之,TD系統(tǒng)必須預(yù)先設(shè)計(jì)一個(gè)善于檢測(cè)和識(shí)別所有話題的檢測(cè)模型,并根據(jù)這一模型檢測(cè)陸續(xù)到達(dá)的報(bào)道流,從中鑒別最新的話題;同時(shí)還需要根據(jù)已經(jīng)識(shí)別到的話題,收集后續(xù)與其相關(guān)的報(bào)道。

4)首次報(bào)道檢測(cè)任務(wù)

在話題檢測(cè)任務(wù)中,最新話題的識(shí)別都要從檢測(cè)出該話題的第一篇報(bào)道開(kāi)始,首次報(bào)道檢測(cè)任務(wù)(First-Story Detection Task, FSD)就是面向這種應(yīng)用產(chǎn)生的。FSD的主要任務(wù)是從具有時(shí)間順序的報(bào)道流中自動(dòng)鎖定未知話題出現(xiàn)的第一篇相關(guān)報(bào)道。大體上,F(xiàn)SD與TD面向的問(wèn)題基本類似,但是FSD輸出的是一篇報(bào)道,而TD輸出的是一類相關(guān)于某一話題的報(bào)道集合,此外,F(xiàn)SD與早期TDT Pilot中的在線檢測(cè)任務(wù)(Online Detection)也具備同樣的共性。

5)關(guān)聯(lián)檢測(cè)任務(wù)

關(guān)聯(lián)檢測(cè)任務(wù)(Link Detection Task, LDT)的主要任務(wù)是裁決兩篇報(bào)道是否論述同一個(gè)話題。與TD類似,對(duì)于每一篇報(bào)道,不具備事先經(jīng)過(guò)驗(yàn)證的話題作為參照,每對(duì)參加關(guān)聯(lián)檢測(cè)的報(bào)道都沒(méi)有先驗(yàn)知識(shí)輔助系統(tǒng)進(jìn)行評(píng)判。因此,LDT系統(tǒng)必須預(yù)先設(shè)計(jì)不獨(dú)立于特定報(bào)道對(duì)的檢測(cè)模型,在沒(méi)有明確話題作為參照的情況下,自主地分析報(bào)道論述的話題,并通過(guò)對(duì)比報(bào)道對(duì)的話題模型裁決其相關(guān)性。LDT研究可以廣泛地作為T(mén)DT中其他各項(xiàng)任務(wù)的輔助研究,比如TD與TT等。

2.輿情熱點(diǎn)研究

熱點(diǎn)自動(dòng)發(fā)現(xiàn)任務(wù)也可叫作熱點(diǎn)檢測(cè),就是如何從不斷涌現(xiàn)的網(wǎng)上輿情中及時(shí)發(fā)現(xiàn)新發(fā)生的熱點(diǎn)信息,并對(duì)其進(jìn)行持續(xù)追蹤。熱點(diǎn)檢測(cè)任務(wù)可以在主題檢測(cè)任務(wù)的基礎(chǔ)之上,加入時(shí)間和數(shù)量?jī)蓚€(gè)因素的分析來(lái)解決熱點(diǎn)發(fā)現(xiàn)的問(wèn)題。

熱點(diǎn)分析任務(wù)在熱點(diǎn)自動(dòng)發(fā)現(xiàn)任務(wù)的基礎(chǔ)上,對(duì)自動(dòng)發(fā)現(xiàn)的熱點(diǎn)進(jìn)行深入分析,從多方面、多角度綜合分析和展現(xiàn)當(dāng)前的輿情熱點(diǎn)。研究?jī)?nèi)容包括輿情熱點(diǎn)的關(guān)鍵詞和摘要提取、情感分析、傳播分析、趨勢(shì)分析和關(guān)聯(lián)分析等任務(wù)。

3.情感傾向性分析

指通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)分析文本信息所包含的情感因素,例如喜歡或討厭、正面或負(fù)面、快樂(lè)或悲傷、憤怒和恐懼等。在不同的文獻(xiàn)中,情感分析也被稱作情感分類、褒貶分類、觀點(diǎn)提取、觀點(diǎn)摘要、情緒分析、情感識(shí)別、情感計(jì)算等。同時(shí),情感是一個(gè)很廣泛的詞匯,在不同場(chǎng)合研究者往往采用不同的詞匯來(lái)表達(dá),比如觀點(diǎn)(Opinion)、情感(Sentiment)、情緒(Emotion/Affect)等。

對(duì)輿情文本進(jìn)行傾向性分析,實(shí)際上就是試圖用計(jì)算機(jī)實(shí)現(xiàn)根據(jù)文本的內(nèi)容提煉出網(wǎng)絡(luò)傳播者所蘊(yùn)含的感情、態(tài)度、觀點(diǎn)、立場(chǎng)、意圖等主觀反映。

目前,情感傾向分析的方法主要分為兩類:一種是基于情感詞典的方法;一種是基于機(jī)器學(xué)習(xí)的方法,如基于大規(guī)模語(yǔ)料庫(kù)的機(jī)器學(xué)習(xí)。前者需要用到標(biāo)注好的情感詞典,英文的詞典有很多,中文主要有知網(wǎng)整理的情感詞典HowNet和臺(tái)灣大學(xué)整理發(fā)布的NTUSD兩個(gè)情感詞典,還有哈工大信息檢索研究室開(kāi)源的《同義詞詞林》可以用于情感詞典的擴(kuò)充。基于機(jī)器學(xué)習(xí)的方法則需要大量的人工標(biāo)注的語(yǔ)料作為訓(xùn)練集,通過(guò)提取文本特征,構(gòu)建分類器來(lái)實(shí)現(xiàn)情感的分類。

4.輿情趨勢(shì)預(yù)測(cè)

輿情同其他事物一樣,是一種客觀存在,有其產(chǎn)生、發(fā)展、變化的規(guī)律。只要對(duì)其予以客觀、全面、科學(xué)的考察,細(xì)致、認(rèn)真、仔細(xì)的分析,就能大致預(yù)測(cè)它的發(fā)展方向。特別是當(dāng)前我們已處于大數(shù)據(jù)時(shí)代,大數(shù)據(jù)使網(wǎng)絡(luò)輿情預(yù)測(cè)成為現(xiàn)實(shí)。對(duì)已經(jīng)出現(xiàn)的網(wǎng)絡(luò)輿情予以監(jiān)測(cè),這是網(wǎng)絡(luò)輿情引導(dǎo)的傳統(tǒng)做法,也是以往網(wǎng)絡(luò)輿情管理的起始。但是利用大數(shù)據(jù)技術(shù),可以對(duì)網(wǎng)絡(luò)輿情中具有關(guān)聯(lián)的數(shù)據(jù)進(jìn)行挖掘并加以分析,使敏感信息在網(wǎng)絡(luò)上傳播的初始階段就被監(jiān)測(cè)到。在此基礎(chǔ)上通過(guò)模型對(duì)網(wǎng)絡(luò)輿情變化趨勢(shì)進(jìn)行仿真,使網(wǎng)絡(luò)輿情預(yù)測(cè)成為現(xiàn)實(shí)。實(shí)現(xiàn)網(wǎng)絡(luò)輿情預(yù)測(cè),至關(guān)重要的是對(duì)數(shù)據(jù)的相關(guān)性進(jìn)行全面分析。而在傳統(tǒng)的網(wǎng)絡(luò)輿情引導(dǎo)中,由于數(shù)據(jù)庫(kù)的缺乏和計(jì)算分析能力有限,往往難以全面分析網(wǎng)絡(luò)輿情,得出的結(jié)論也有失偏頗。大數(shù)據(jù)環(huán)境下,對(duì)網(wǎng)絡(luò)輿情的分析由靜態(tài)化向動(dòng)態(tài)化轉(zhuǎn)變,由片面化向立體化轉(zhuǎn)變,由單一化向全局化轉(zhuǎn)變。利用大數(shù)據(jù)技術(shù)解構(gòu)海量信息,并對(duì)這些信息加以重構(gòu),對(duì)網(wǎng)絡(luò)數(shù)據(jù)的相關(guān)性進(jìn)行深度挖掘,可以全面科學(xué)地分析并預(yù)測(cè)網(wǎng)絡(luò)輿情的發(fā)展趨勢(shì)。此外,大數(shù)據(jù)使網(wǎng)絡(luò)輿情實(shí)現(xiàn)量化管理。使網(wǎng)絡(luò)輿情得以量化,是利用大數(shù)據(jù)對(duì)網(wǎng)絡(luò)輿情進(jìn)行科學(xué)預(yù)測(cè)的前提。網(wǎng)絡(luò)輿情信息量巨大,而被挖掘出來(lái)的網(wǎng)絡(luò)輿情信息需要進(jìn)行量化,在此基礎(chǔ)上再建立數(shù)學(xué)模型對(duì)信息數(shù)據(jù)進(jìn)行計(jì)算和分析。數(shù)據(jù)的量化指的是數(shù)據(jù)是可計(jì)算的,一是在密切關(guān)注網(wǎng)民態(tài)度與情緒變化的同時(shí)對(duì)其采用量化指標(biāo)加以標(biāo)識(shí),二是對(duì)網(wǎng)絡(luò)言論所持某一觀點(diǎn)的人群數(shù)量進(jìn)行統(tǒng)計(jì),三是透過(guò)網(wǎng)絡(luò)信息文字內(nèi)容來(lái)對(duì)網(wǎng)民互動(dòng)的社會(huì)關(guān)系網(wǎng)絡(luò)數(shù)量進(jìn)行統(tǒng)計(jì)。另一方面,大數(shù)據(jù)使網(wǎng)絡(luò)輿情相互關(guān)聯(lián)。網(wǎng)絡(luò)信息是網(wǎng)絡(luò)背后的網(wǎng)民所傳達(dá)出來(lái)的信息的集合,因而對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行研究,實(shí)質(zhì)上是對(duì)由人所組成的社會(huì)網(wǎng)絡(luò)進(jìn)行研究。要實(shí)現(xiàn)網(wǎng)絡(luò)輿情預(yù)測(cè),離不開(kāi)對(duì)網(wǎng)絡(luò)輿情之間的關(guān)系進(jìn)行關(guān)聯(lián)這一尤為重要的大數(shù)據(jù)技術(shù)。在大數(shù)據(jù)時(shí)代,每個(gè)網(wǎng)絡(luò)數(shù)據(jù)都被看作是一個(gè)節(jié)點(diǎn),能夠在輿情鏈上與其他關(guān)聯(lián)數(shù)據(jù)不受限制地產(chǎn)生乘法效應(yīng),這種關(guān)聯(lián)如同數(shù)據(jù)裂變,會(huì)擴(kuò)大至全體網(wǎng)絡(luò)數(shù)據(jù),使輿情分析更為準(zhǔn)確。

5.輿情信息可視化

可視化是一個(gè)可以處理海量數(shù)據(jù)的可行工具之一,它能使科研人員發(fā)現(xiàn)數(shù)據(jù)內(nèi)部隱藏的信息,從而進(jìn)一步找出信息所反映的規(guī)律,提高對(duì)海量數(shù)據(jù)的認(rèn)識(shí)。在網(wǎng)絡(luò)輿情研究過(guò)程中,使用可視化分析技術(shù)能夠克服傳統(tǒng)數(shù)據(jù)收集、分析與呈現(xiàn)方法上存在的效率低下以及難以發(fā)現(xiàn)其中的關(guān)鍵信息與潛在特征的不足,通過(guò)化繁為簡(jiǎn)、化抽象為具象,能夠使用易于理解的圖形圖像揭示網(wǎng)絡(luò)輿情的分布、發(fā)展和演化規(guī)律,因而在網(wǎng)絡(luò)輿情研究中具有非常顯著的應(yīng)用價(jià)值。

在具體的研究過(guò)程中,可視化從嚴(yán)格意義上來(lái)說(shuō)是一種信息分析框架,原始信息、數(shù)據(jù)表格、可視化結(jié)構(gòu)和最終呈現(xiàn)在用戶面前的視圖被這一框架有機(jī)地鏈接在一起。針對(duì)不同類型的輿情信息又有不同的研究方向,比如,對(duì)于文本信息,比較常用的可視化分析主要有基于關(guān)鍵詞的網(wǎng)絡(luò)輿情文本內(nèi)容的可視化、時(shí)序性網(wǎng)絡(luò)輿情文本信息的可視化等。對(duì)于具有層次結(jié)構(gòu)的輿情信息,研究者們通常根據(jù)自己的關(guān)注點(diǎn)選擇合適的層次信息可視化技術(shù)來(lái)呈現(xiàn)信息項(xiàng)之間錯(cuò)綜復(fù)雜的層次關(guān)系,常用的可視化技術(shù)包括節(jié)點(diǎn)鏈接樹(shù)、雙曲樹(shù)、徑向樹(shù)等,比如想要探究網(wǎng)絡(luò)輿情信息擴(kuò)散的路徑就可以使用節(jié)點(diǎn)鏈接樹(shù)的方法來(lái)發(fā)掘其中的關(guān)鍵節(jié)點(diǎn)。網(wǎng)狀結(jié)構(gòu)的輿情信息也是當(dāng)前研究的熱點(diǎn),對(duì)于輿情的社會(huì)網(wǎng)絡(luò)分析,研究者們提出了一些網(wǎng)絡(luò)節(jié)點(diǎn)布局方法,如:按照力導(dǎo)向布局、地圖布局、環(huán)狀布局等。除此之外,一些常見(jiàn)的統(tǒng)計(jì)的圖形,如餅圖、折線圖、直方圖、總量圖、趨勢(shì)圖等也常用于展現(xiàn)網(wǎng)絡(luò)輿情信息的時(shí)間趨勢(shì)、情感傾向、區(qū)域分布等特征以及輿情統(tǒng)計(jì)報(bào)表、報(bào)告的呈現(xiàn)。

1.3.2 網(wǎng)絡(luò)輿情分析的步驟

輿情分析從數(shù)據(jù)采集到最終的分析報(bào)告發(fā)布主要包括4個(gè)步驟:輿情數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、輿情分析和輿情報(bào)告發(fā)布,如圖1-1所示。

圖1-1 輿情分析的步驟

1.輿情數(shù)據(jù)采集

互聯(lián)網(wǎng)時(shí)代,要想達(dá)到輿情信息的快速準(zhǔn)確采集,需要充分做到網(wǎng)上輿情采集和網(wǎng)下輿情收集的互補(bǔ),利用自動(dòng)化的輿情監(jiān)測(cè)工具,以網(wǎng)上輿情信息采集為主,保證輿情信息采集速度和數(shù)量。目前,國(guó)內(nèi)許多軟件公司開(kāi)發(fā)出了多種網(wǎng)絡(luò)輿情監(jiān)測(cè)、采集、分析軟件,這些系統(tǒng)利用爬蟲(chóng)技術(shù),根據(jù)設(shè)定的監(jiān)控關(guān)鍵詞抓取重點(diǎn)媒體、論壇、博客、微博等網(wǎng)站里的輿情信息。其中,比較具有影響力的系統(tǒng)包括:樂(lè)思網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)、軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、Rank輿情監(jiān)測(cè)系統(tǒng)、谷尼輿情監(jiān)測(cè)系統(tǒng)、紅麥輿情監(jiān)測(cè)系統(tǒng)等。一些免費(fèi)甚至是開(kāi)源的爬蟲(chóng)軟件也可以用于輿情數(shù)據(jù)采集,這些軟件主要包括集搜客網(wǎng)頁(yè)抓取軟件、八爪魚(yú)爬蟲(chóng)、LoalaSam網(wǎng)絡(luò)爬蟲(chóng)等。研究者也可以根據(jù)實(shí)際情況使用Java、Python、R等語(yǔ)言有針對(duì)地開(kāi)發(fā)滿足研究需要的爬蟲(chóng)工具。

2.?dāng)?shù)據(jù)預(yù)處理

信息預(yù)處理是對(duì)采集到的輿情進(jìn)行初步的加工和處理,為后繼輿情關(guān)鍵信息抽取和輿情內(nèi)容分析奠定基礎(chǔ)。

網(wǎng)絡(luò)輿情數(shù)據(jù)大都是非結(jié)構(gòu)化的文本數(shù)據(jù),文本數(shù)據(jù)的預(yù)處理主要包括文本分詞、去停用詞(包括標(biāo)點(diǎn)、數(shù)字、單字和其他一些無(wú)意義的詞)、文本特征提取、詞頻統(tǒng)計(jì)、文本向量化等操作。

3.輿情分析

輿情分析就是根據(jù)特定問(wèn)題的需要,對(duì)針對(duì)這個(gè)問(wèn)題的輿情進(jìn)行深層次的思維加工和分析研究,得到相關(guān)結(jié)論的過(guò)程,可分為內(nèi)容分析和實(shí)證分析。內(nèi)容分析法是一種對(duì)信息內(nèi)容做客觀系統(tǒng)的定量分析的專門(mén)方法,其目的是弄清或測(cè)驗(yàn)信息中本質(zhì)性的事實(shí)和趨勢(shì)。提示信息所含有的隱性情報(bào)內(nèi)容,對(duì)事物發(fā)展做情報(bào)預(yù)測(cè)。實(shí)證分析法是通過(guò)分析大量案例和相關(guān)數(shù)據(jù)后試圖得出某些結(jié)論的一種常見(jiàn)研究方法。對(duì)輿情的分析要明確事件或話題本身所處的階段,一般分為引發(fā)期、醞釀期、發(fā)生期、發(fā)展期、高潮期、處理期、平息期和反饋期等不同階段。其次,應(yīng)該在分析某一輿情熱點(diǎn)之前對(duì)其進(jìn)行科學(xué)的類型界定。熱點(diǎn)事件一般主要分為突發(fā)自然災(zāi)害事件、生產(chǎn)安全事故、群體性事件、公共衛(wèi)生事件、公權(quán)力形象、司法事件、經(jīng)濟(jì)民生事件、社會(huì)思潮、境外涉華突發(fā)事件等。

4.輿情報(bào)告

根據(jù)輿情分析結(jié)果生成輿情分析報(bào)告。輿情報(bào)告是針對(duì)某個(gè)主題或者事件的輿論信息,以報(bào)告的形式展示主題情況,客觀真實(shí)地展現(xiàn)某主題或事件在大眾社會(huì)的看法和態(tài)度反饋,是調(diào)查報(bào)告的一種。一般輿情報(bào)告分為三個(gè)部分。第一部分對(duì)事件或主題進(jìn)行概括式描述和簡(jiǎn)要介紹,交代事件的來(lái)龍去脈。第二部分是基于查找到的與主題有關(guān)的信息,以列表、繪圖等方式來(lái)展現(xiàn)輿情發(fā)展。第三部分是對(duì)輿情分析的總結(jié)和對(duì)事件的客觀評(píng)論,為領(lǐng)導(dǎo)決策做參考。

輿情報(bào)告不比新聞稿,它的時(shí)效性并不是十分快速,可能當(dāng)報(bào)告出來(lái)時(shí),事件早已平息,不再熱門(mén)。這就是輿情報(bào)告的獨(dú)特之處,它不在熱門(mén)的時(shí)候畫(huà)蛇添足,而是等人們的熱情退去,給人們帶來(lái)更深層次的理性的思考。

1.3.3 網(wǎng)絡(luò)輿情分析的常用技術(shù)

針對(duì)前文所述的輿情研究熱點(diǎn)問(wèn)題,常用的分析技術(shù)包括如下幾種。

1.網(wǎng)絡(luò)爬蟲(chóng)

網(wǎng)絡(luò)爬蟲(chóng)又被稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,主要用于網(wǎng)絡(luò)資源的收集工作。在進(jìn)行網(wǎng)絡(luò)輿情分析時(shí),首先需要獲取輿情信息內(nèi)容,這就要用到網(wǎng)絡(luò)爬蟲(chóng)這個(gè)工具,它是一個(gè)能自動(dòng)提取網(wǎng)頁(yè)內(nèi)容的程序,通過(guò)搜索引擎從互聯(lián)網(wǎng)上爬取網(wǎng)頁(yè)地址并抓取相應(yīng)的網(wǎng)頁(yè)內(nèi)容,是搜索引擎的重要組成部分。

網(wǎng)絡(luò)爬蟲(chóng)是輿情分析工作必備的武器,輿情爬蟲(chóng)與其他的爬蟲(chóng)采集在范圍上有點(diǎn)兒差異,輿情采集只關(guān)心媒體數(shù)據(jù),這算是網(wǎng)絡(luò)爬蟲(chóng)的一個(gè)垂直領(lǐng)域,媒體數(shù)據(jù)包括新聞、論壇、博客、微博、微信、貼吧、天涯等。除了范圍不同,輿情網(wǎng)絡(luò)爬蟲(chóng)另一個(gè)特點(diǎn)是需要更新及時(shí),就是爬蟲(chóng)的周期要小,否則結(jié)果就沒(méi)有意義了。

2.中文分詞

分詞是信息預(yù)處理時(shí)用到的技術(shù)。中文分詞,顧名思義,就是借助計(jì)算機(jī)自動(dòng)給中文斷句,使其能夠正確表達(dá)所要表達(dá)的意思。中文不同于西文,沒(méi)有空格這個(gè)分隔符,同時(shí)在中文中充滿了大量的同義詞、相近詞,如何給中文斷句是個(gè)非常復(fù)雜的問(wèn)題,即使是手工操作也會(huì)出現(xiàn)問(wèn)題。中文分詞是信息提取、信息檢索、機(jī)器翻譯、文本分類、自動(dòng)文摘、語(yǔ)音識(shí)別、文本語(yǔ)音轉(zhuǎn)換、自然語(yǔ)言理解等中文信息處理領(lǐng)域的基礎(chǔ)研究課題。對(duì)于中文分詞技術(shù)的研究,對(duì)于我國(guó)計(jì)算機(jī)的發(fā)展有著至關(guān)重要的作用。

最早的中文分詞方法是北京航空航天大學(xué)的梁南元教授提出的一種基于“查字典”的分詞方法。該方法的思想是把整個(gè)中文句子讀一遍,然后把字典里有的詞都單獨(dú)標(biāo)示出來(lái),當(dāng)遇到復(fù)合詞時(shí),就找到最長(zhǎng)的詞匹配,遇到不認(rèn)識(shí)的字符串就分割成單個(gè)文字。這種分詞方法效率并不高,但它的提出為中文分詞技術(shù)奠定了基礎(chǔ)。在后續(xù)的近三十年研究中,許多研究者實(shí)現(xiàn)了中文分詞基于詞典和基于概率統(tǒng)計(jì)的很多算法。現(xiàn)在中文分詞的算法主要包括基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法等。其中,基于詞典的分詞方法是當(dāng)今的主流,可以說(shuō)現(xiàn)在出現(xiàn)的分詞系統(tǒng),很多都是在基于詞典的基礎(chǔ)上再結(jié)合另外的一種或兩種方法而成的。基于詞典的分詞方法又稱機(jī)械分詞方法,主要包括最大正向匹配、最大逆向匹配、最少切分法等。

中文分詞有兩大基本問(wèn)題,也是中文分詞的難點(diǎn),一是歧義識(shí)別問(wèn)題,二是未登錄詞問(wèn)題。首先了解一下歧義識(shí)別問(wèn)題,由于中文自身的特點(diǎn),對(duì)于中文中的一句話不同的劃分可能有不同的意思。例如,“乒乓球拍賣(mài)完了”,這句話可以劃分成“乒乓球/拍賣(mài)完了”,也可以劃分成“乒乓球拍/賣(mài)完了”。目前,尚未出現(xiàn)一個(gè)百分百的消除歧義的算法,但是已經(jīng)出現(xiàn)了許多比較好的,且具有一定實(shí)際應(yīng)用價(jià)值的算法,如:簡(jiǎn)單最大匹配算法、復(fù)雜最大匹配算法、神經(jīng)網(wǎng)絡(luò)算法等。未登錄詞也是分詞的難點(diǎn),未登錄詞又稱為新詞,語(yǔ)言的不斷的發(fā)展和變化導(dǎo)致新詞不斷出現(xiàn),同時(shí)詞的衍生現(xiàn)象非常普遍,所以詞表中不能囊括所有的詞。最典型的是人名,例如在句子“李軍虎去上海”中,我們可以很容易理解“李軍虎”作為一個(gè)人名是個(gè)詞,但計(jì)算機(jī)識(shí)別就困難了。如果把“李軍虎”作為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且時(shí)時(shí)都有新增的人名,如此一項(xiàng)巨大的工程即使可以完成,問(wèn)題仍舊存在。例如,在句子“李軍虎背熊腰的”中,“李軍虎”又算詞嗎?新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語(yǔ)等這些人們經(jīng)常使用的詞都是很難處理的問(wèn)題,因此在信息搜索中,分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。

3.文本表示

要使得計(jì)算機(jī)能高效地處理真實(shí)文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實(shí)地反映文檔內(nèi)容(主題、領(lǐng)域或結(jié)構(gòu)等),另一方面也要有對(duì)不同文檔的區(qū)分能力。目前文本表示通常采用向量空間模型(Vector Space Model, VSM)。VSM是20世紀(jì)60年代末期由G. Salton等人提出的,是當(dāng)前自然語(yǔ)言處理中常用的主流模型。

文本空間向量模型的主要思想是:將每一個(gè)文本表示為向量空間的一個(gè)向量,并以每一個(gè)不同的特征項(xiàng)(詞條)對(duì)應(yīng)為向量空間中的一個(gè)維度,而每一個(gè)維的值就是對(duì)應(yīng)的特征項(xiàng)在文本中的權(quán)重。這其中涉及如下幾個(gè)概念。

(1)文檔(Document):通常是文章中具有一定規(guī)模的字符串。文檔通常也叫文本。

(2)特征項(xiàng)(Feature Term):是VSM中最小的不可分的語(yǔ)言單元,可以是字、詞、詞組、短語(yǔ)等。一個(gè)文檔內(nèi)容可以被看成是它含有的特征項(xiàng)的集合。表示為一個(gè)向量:Dt1,t2,…,tn),其中,tk是特征項(xiàng)。

(3)特征項(xiàng)權(quán)重(Term Weight):對(duì)于含有n個(gè)特征項(xiàng)的文檔Dt1,t2,…,tn),每一個(gè)特征項(xiàng)tk都依據(jù)一定的原則被賦予了一個(gè)權(quán)重wk,表示該特征項(xiàng)在文檔中的重要程度。這樣一個(gè)文檔D可用它含有的特征項(xiàng)及其特征項(xiàng)所對(duì)應(yīng)的權(quán)重所表示:Dt1=w1,t2=w2,…,tn=wn),簡(jiǎn)記為Dw1,w2,…,wn),其中,wk就是特征項(xiàng)tk的權(quán)重。

一個(gè)文檔在上述約定下可以看成是n維空間中的一個(gè)向量,這就是VSM的由來(lái),下面給出其定義。

給定一個(gè)文檔Dt1,w1;t2,w2;…;tn,wn),D符合以下兩條約定。

(1)各個(gè)特征項(xiàng)tk互異(即沒(méi)有重復(fù));

(2)各個(gè)特征項(xiàng)tk無(wú)先后順序關(guān)系(即不考慮文檔的內(nèi)部結(jié)構(gòu))。

在以上兩個(gè)約定下,可以把特征項(xiàng)t1,t2,…,tn看成一個(gè)n維坐標(biāo)系,而權(quán)重w1,w2,…,wn為相應(yīng)的坐標(biāo)值,因此,一個(gè)文本就表示為N維空間中的一個(gè)向量。我們稱D=Dw1,w2,…,wn)為文本D的向量表示或向量空間模型。

文本向量空間模型的構(gòu)建通常遵循如下幾個(gè)步驟。

(1)將文本的基本語(yǔ)言單位(字、詞、詞組、短語(yǔ))抽取,組成特征項(xiàng),用tk表示;

(2)將tk按在文本中的重要性給出權(quán)重wn

(3)將文本抽象為(t1,w1,t2,w2,…,tn,wn),簡(jiǎn)化為(w1,w2,…,wn)即為文本的向量空間模型。

特征項(xiàng)的權(quán)值wn的計(jì)算通常有如下幾種方法。

(1)布爾權(quán)值:wn可取值1/0表示該特征是否在文本中出現(xiàn)。

(2)詞頻權(quán)值:wn用特征在文檔中出現(xiàn)的頻數(shù)表示。

(3)TF/IDF權(quán)值:TF(Term Frequency)指的是詞頻,即一個(gè)詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)。IDF(Inverse Document Frequency)指的是逆向文件頻率,是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)的文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。例如,一篇文件的總詞語(yǔ)數(shù)是100個(gè),而詞語(yǔ)“母牛”出現(xiàn)了3次,那么“母牛”一詞在該文件中的詞頻就是3/100=0.03。一個(gè)計(jì)算文件頻率IDF的方法是測(cè)定有多少份文件出現(xiàn)過(guò)“母牛”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“母牛”一詞在1000份文件中出現(xiàn)過(guò),而文件總數(shù)是10 000 000份,其逆向文件頻率就是log(10 000 000/1000)=4。最后的TF-IDF的分?jǐn)?shù)為0.03×4=0.12。

除了VSM方法之外,還有一些其他的文本表示方法,例如,詞組表示法、概念表示法等。詞組表示法對(duì)文本分類效果的提高并不十分明顯。概念表示法需要額外的語(yǔ)言資源,主要是一些語(yǔ)義詞典,例如英文的Wordnet,中文的HowNet(即,知網(wǎng)中文詞庫(kù))。一些研究認(rèn)為,用概念代替單個(gè)詞可以在一定程度上解決自然語(yǔ)言的歧義性和多樣性給特征向量帶來(lái)的噪聲問(wèn)題,有利于提高文本分類效果。

4.文本特征降維

如何有效地降低維數(shù)并盡可能地減少噪聲數(shù)據(jù)對(duì)分類效果的影響是文本特征提取的關(guān)鍵問(wèn)題。大量的文本在分詞后的詞匯量是數(shù)以萬(wàn)計(jì)或者更高的,在文本分析中就表現(xiàn)為數(shù)以萬(wàn)計(jì)的維數(shù)。要處理這么多的數(shù)據(jù),需要大量的時(shí)間,在對(duì)時(shí)間復(fù)雜度要求較高的系統(tǒng)(比如:在線服務(wù)的系統(tǒng))中這是無(wú)法忍受的。這就要求所選用的文本分析工具時(shí)間復(fù)雜度要低,盡可能地做到線性,但這是不現(xiàn)實(shí)的。因?yàn)楝F(xiàn)有的機(jī)器學(xué)習(xí)算法很少有隨著數(shù)據(jù)維數(shù)的增長(zhǎng)時(shí)間線性增長(zhǎng)的,這種非線性增長(zhǎng)對(duì)海量數(shù)據(jù)就造成了所謂的“維數(shù)災(zāi)難”。所以有效地降低數(shù)據(jù)維數(shù),去除噪聲數(shù)據(jù)是數(shù)據(jù)降維的主要目的。在文本分類中常用特征選擇來(lái)進(jìn)行降維,選取那些對(duì)分類貢獻(xiàn)高的詞作為特征,丟掉噪聲和對(duì)分類貢獻(xiàn)低的詞。

5.文本分類

自動(dòng)文本分類(Automatic Text Categorization)或者簡(jiǎn)稱為文本分類,是指計(jì)算機(jī)將一篇文章歸于預(yù)先給定的某一類或某幾類的過(guò)程。相關(guān)的定義還有:

(1)文本分類是指按照預(yù)先定義的主題類別,為文檔集合中的每個(gè)文檔確定一個(gè)類別。文本分類是文本挖掘的一個(gè)重要內(nèi)容。

(2)所謂文本分類,是指對(duì)所給出的文本給出預(yù)定義的一個(gè)或多個(gè)類別標(biāo)號(hào),對(duì)文本進(jìn)行準(zhǔn)確、高效的分類。它是許多數(shù)據(jù)管理任務(wù)的重要組成部分。

(3)文本分類是指按預(yù)先指定的標(biāo)準(zhǔn)對(duì)文檔進(jìn)行歸類,這樣用戶不僅可以方便地瀏覽文檔而且可以通過(guò)類別來(lái)查詢所需的文檔。

(4)文本分類是指在給定的分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過(guò)程。

20世紀(jì)90年代以前,占主導(dǎo)地位的文本分類方法一直是基于知識(shí)工程的分類方法,即由專業(yè)人員手工進(jìn)行分類。人工分類非常費(fèi)時(shí),效率非常低。20世紀(jì)90年代以來(lái),眾多的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用于自動(dòng)文本分類,文本分類技術(shù)的研究引起了研究人員的極大興趣。目前,文本分類大致使用兩種方法:一種是基于訓(xùn)練集的文本分類方法;另一種是基于分類詞表的文本分類方法。基于訓(xùn)練集的文本分類方法使用較普遍,是一種典型的有監(jiān)督的機(jī)器學(xué)習(xí)問(wèn)題,一般分為訓(xùn)練和分類兩個(gè)階段,具體過(guò)程如下。

1)訓(xùn)練階段

(1)定義類別集合C={c1,c2,…,ci,…,cm};

(2)給出訓(xùn)練文檔集合S={s1,s2,…,sj,…,sn},每個(gè)訓(xùn)練文檔sj被標(biāo)上所屬的類別標(biāo)識(shí)ci

(3)統(tǒng)計(jì)S中所有文檔的特征矢量Vsj),確定代表C中每個(gè)類別的特征矢量Vci)。

2)分類階段

(1)對(duì)于測(cè)試文檔集合T={d1,…,dr}中的每個(gè)待分類文檔,計(jì)算其特征矢量與每個(gè)類別Vci)之間的相似度sim(dk,ci);

(2)選取相似度最大的一個(gè)類別作為dk的類別。

6.文本聚類

文本聚類(Text Clustering)是在沒(méi)有學(xué)習(xí)條件下對(duì)文本集合進(jìn)行組織或劃分的過(guò)程,主要依據(jù)著名的聚類假設(shè):同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類由于不需要訓(xùn)練過(guò)程,以及不需要預(yù)先對(duì)文檔手工標(biāo)注類別,因此具有一定的靈活性和較高的自動(dòng)化處理能力,已經(jīng)成為對(duì)文本信息進(jìn)行有效的組織、摘要和導(dǎo)航的重要手段,為越來(lái)越多的研究人員所關(guān)注。

文本聚類方法通常先利用向量空間模型把文檔轉(zhuǎn)換成高維空間中的向量,然后對(duì)這些向量進(jìn)行聚類。由于中文文檔沒(méi)有詞的邊界,所以一般先由分詞軟件對(duì)中文文檔進(jìn)行分詞,然后再把文檔轉(zhuǎn)換成向量,通過(guò)特征抽取后形成樣本矩陣,最后再進(jìn)行聚類,文本聚類的輸出一般為文檔集合的一個(gè)劃分。其文本聚類的過(guò)程如圖1-2所示。

圖1-2 文本聚類的過(guò)程

文本聚類大致可以分為基于劃分的方法和基于層次的方法。K-Means(K-均值)是一種典型的基于劃分的方法,是一種基于質(zhì)心的聚類技術(shù),其基本原理是首先選擇k個(gè)文檔作為初始的聚類點(diǎn),然后根據(jù)簇中對(duì)象的平均值,將每個(gè)文檔重新賦給最類似的簇,并更新簇的平均值,然后重復(fù)這一過(guò)程,直到簇的劃分不再發(fā)生變化。基于層次的聚類算法將數(shù)據(jù)對(duì)象組織成一棵聚類的樹(shù)。根據(jù)層次分解是自底向上還是自頂向下形成,層次聚類算法可以進(jìn)一步分為凝聚的和分裂的層次聚類。凝聚的層次聚類,首先將每個(gè)文本對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到所有對(duì)象都在一個(gè)簇中,或者終止條件滿足。分裂的層次聚類與凝聚的層次聚類相反,它首先將所有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來(lái)越小的簇,直到每個(gè)對(duì)象自成一簇,或者終止條件滿足。

7.輿情情感分析

情感分析(Sentiment Analysis, SA)又稱傾向性分析和意見(jiàn)挖掘,它是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程,如從大量網(wǎng)頁(yè)文本中分析用戶對(duì)“數(shù)碼相機(jī)”的“變焦、價(jià)格、大小、重量、閃光、易用性”等屬性的情感傾向;在網(wǎng)絡(luò)輿情分析領(lǐng)域,可以利用文本情感計(jì)算技術(shù)深入分析人們對(duì)社會(huì)現(xiàn)實(shí)和現(xiàn)象的群體性情緒、觀點(diǎn)、思想、心理、意志和要求。

目前多數(shù)情感分析主要集中在文章的正負(fù)面,較常用的技術(shù)是根據(jù)詞性的正負(fù)性來(lái)判斷文章的正負(fù)性,比如在一篇文章中出現(xiàn)的正向性詞的權(quán)重大于負(fù)向性詞的權(quán)重,則文章判斷為正向性。關(guān)于詞的正負(fù)性,則可以根據(jù)種子詞來(lái)進(jìn)行判斷,通用的方法是根據(jù)要判斷的詞與種子詞在語(yǔ)料庫(kù)中的共現(xiàn)頻率來(lái)進(jìn)行判斷,比如:“雷鋒光榮”,如果種子詞為光榮,則雷鋒的詞性為正向性。另一種方法是使用分類技術(shù)對(duì)文章的正負(fù)向性進(jìn)行判斷,常用的分類技術(shù)有SVM等。需要提到的是在上述方案中,是對(duì)一篇文章進(jìn)行正負(fù)向性分析,而實(shí)際的文章中,可能會(huì)有多個(gè)片段,不同的片段可能具有不同的情感傾向,諸如一篇文章上半部分講一款筆記本不錯(cuò),下半部分說(shuō)的是筆記本的缺點(diǎn)等,這篇文章就應(yīng)該分成兩個(gè)不同的情感或觀點(diǎn)。

情感分析目前主要是基于詞的正負(fù)向性來(lái)判斷,缺少了語(yǔ)法、語(yǔ)義和語(yǔ)篇上的情感傾向性分析,這也是目前輿情分析中的不足。在自然語(yǔ)言處理領(lǐng)域,較于中文分詞技術(shù)日漸成熟之外,針對(duì)語(yǔ)法、語(yǔ)義、語(yǔ)篇上的分析目前還不夠成熟。

主站蜘蛛池模板: 安顺市| 清涧县| 阿克苏市| 天门市| 明星| 丹东市| 五大连池市| 德保县| 团风县| 台前县| 临沂市| 新邵县| 宁津县| 石首市| 沙河市| 南涧| 龙陵县| 山东省| 建平县| 哈巴河县| 和静县| 汶上县| 六安市| 新绛县| 秭归县| 融水| 平阴县| 尚义县| 理塘县| 云阳县| 南开区| 韶山市| 凤庆县| 凌海市| 随州市| 大渡口区| 丹东市| 平湖市| 茂名市| 福贡县| 榆林市|