- CADAL數字圖書館知識標準規范及應用研究
- 劉柏嵩
- 8511字
- 2020-02-26 16:05:21
1.3 自動標引方法
近幾年來,隨著信息技術的快速發展,用戶所面向的知識源越來越龐大,對信息的需要也越來越個性化,要充分挖掘文獻中所含的知識內容,手工標引技術已遠遠不能滿足用戶的需要了。自動標引技術以它的快速性、準確性以及再創造性,愈發得到學界的重視。一種好的自動標引方法的出現,可以大大地提高標引的準確率,為用戶提供更優更好的服務。以下著重介紹自動標引方法。
1.3.1 自動標引方法研究狀況
自動標引的研究至今大致經歷了三個階段:
第一階段是20世紀50年代至90年代初。這個階段主要是關于關鍵字提取方法的研究。
第二階段是20世紀90年代至90年代末。這個階段傳統的自動標引方法的效率已達到極限,因此自動標引方法的研究進入低谷。
第三階段是20世紀90年代末至今。這個階段計算機及網絡技術迅速發展,用戶需求不斷提高,因此自動標引方法的研究進入了繁榮期。
1.3.1.1 國外自動標引方法研究狀況
國外對自動標引的研究最早始于20世紀50年代,經過了60多年的發展,取得了較多的成果。
1957年,盧恩(Hans P.Luhn)開始了自動標引研究,他最早將計算機技術應用到了文獻標引領域,開創了計算機自動標引的先河。盧恩以Zipf定律為其理論基礎,采用了以詞頻為特征的統計標引方法。該方法的優點是簡單易行,且具有一定的客觀性和合理性,因此在自動標引中占據重要地位。
1958年,盧恩提出了基于絕對頻率加權法的自動標引方法。
1958年,巴克森代爾(Phyllis B.Baxendale)提出了從論題句和介詞短語中自動提取關鍵詞的方法。
1959年,埃德蒙森(Harold P.Edmundson)等提出了基于相對頻率加權法的自動標引方法。
1960年,馬龍(Melvin E.Maron)與庫恩斯(Jennafer L.Kuhns)提出了基于相關概率的自動標引方法。
1969年,埃德蒙森提出了提示詞加權法、題名加權法、位置加權法等新的加權方法,并對不同加權法如何形成最優的組合進行了探討。
1970年,厄爾(Lois L.Earl)提出了采用詞頻統計方法和語言學方法相結合提取關鍵詞的方法。
1973年,索爾頓(Gerard Salton)和楊(Chun S.Yang)提出了基于詞區分值的自動標引方法。
1975年,索爾頓(Gerard Salton)等提出了基于VSM模型的自動標引方法。
1983年,迪倫(Martin Dillon)和格雷(Ann S.Gray)研制出了FASIT系統,該系統是一種基于概念的自動標引方法,由概念選擇和概念歸類兩個標引過程組成。
1988年,西門子公司推出了文本處理項目TINA(Text INhalts Analyse),該項目中的一個組成部分是COPSY(Context Operator SYntax)系統,該系統可對名詞短語進行自動識別、選擇、規范、匹配等。
1990年,迪爾韋斯特(Scott Deerwester)等提出了潛在語義分析的自動標引方法。
1993年,席爾瓦(Wagner Teixeira da Silva)與魯伊(Ruy Luiz Milidiu)提出了基于相信函數模型的自動標引方法。
1995年,科恩(Jonathan D.Cohen)提出了基于N-Gram分析法的自動標引方法。
1999年,弗蘭克(Eibe Frank)等提出了基于樸素貝葉斯的關鍵詞提取方法。
2001年,安霍(Anjo Anjewierden)與卡貝爾(Suzanne Kabel)提出了基于本體的自動標引方法。
2003年,隆友清(Takashi Tomokiyo)與赫斯特(Matthew Hurst)提出了基于語言模型的關鍵詞提取方法。
2003年,胡爾特(Anette Hulth)利用Bagging算法提出了基于集成學習的關鍵詞抽取方法。
2007年,埃爾詹(Gonenc Ercan)與伊利亞斯(Ilyas Cicekli)提出了基于詞匯鏈的自動標引方法。
2008年,布羅內(Sarah de Bruyne)等提出了基于H.264/AVC視頻標準的視頻信息自動標引方法。
2009年,格里(Gowri Allampalli-Nagaraj)與伊莎貝爾(Isabelle Bichindaritz)提出了基于本體語言的自動標引方法。
2010年,斯米頓(Alan F.Smeaton)等提出了基于TRECVid鏡頭邊界檢測的視頻信息自動標引方法。
2011年,帕拉尼韋爾(Sengottayan Palanivel)等提出了基于LPCC特征和K-means聚類算法的音頻信息自動標引方法。
2012年,埃塞爾(Daniel Esser)利用文檔的位置和結構,提出了面向歸檔類文檔的自動標引方法。
2013年,彼得(Piotr Wrzeciono)與卡沃斯基(Waldemar Karwowski)針對波蘭語的農業科學論文,結合波蘭語詞典,提出了一個基于文本分析的自動標引系統。
2014年,馬爾瓦(Marwa Hendez)與阿舒爾(Hadhemi Achour)基于TF-IDF,利用領域詞典,提出了一個針對教育資源的半自動化標引方法。
2015年,亞當斯(Joel R.Adams)與貝德里克(Steven Bedrick)針對生物醫學領域的文獻,利用文獻摘要之間的相似性,結合MeSH詞典,提出了基于潛在語義分析的自動標引方法。
2017年,帕伊(Tayfun Pay)等利用名詞性短語和修飾名詞性短語的若干個形容詞,結合基于位置的啟發式過濾方法,提出了一種無監督的全自動關鍵字抽取方法。
1.3.1.2 國內自動標引方法研究狀況
國內自1980年以后開始涉足自動標引領域,也取得了很多成果。
1980年前后,陳培久提出了基于詞典切分詞標引法的漢語科技文獻標題自動標引方法,并用該方法展開了“漢語科技文獻標題自動標引試驗”。
1984年,王永成與肖瑋瑛提出了基于部件詞典的自動標引方法。
1985年,朱納克博士等利用語義結構分析法進行全文自動標引試驗,實驗結果證明其可以媲美手工標引。
1985年,毛玉姣等展開了對關鍵詞標引的試驗,并最終開發了漢語文獻自動標引檢索系統。
1987年,北京大學圖書館學情報學系開發了漢語科技文獻自動標引系統。
1987年,鄧欽和與龍澤云開發了基于詞典分詞、詞頻統計、位置加權三者結合起來的自動標引方法——微機中文情報檢索系統。
1991年,趙宗仁開發了語詞結構類比自動標引系統。
1997年,簡立峰提出了基于PAT樹的關鍵詞提取方法。
2004年,李素建提出了基于最大熵模型的關鍵詞提取方法。
2006年,張闊提出了基于SVM的自動標引方法。
2006年,田苗苗等提出了基于遺傳算法的Web信息自動標引方法。
2007年,原小玲提出了基于知識元的知識標引。
2007年,沈靜、周金治等提出了基于UCL的文化網格標引方案。
2008年,沈靜、周金治等提出了基于ADO技術的網頁信息自動標引方法。
2008年,張美娜等提出了基于篇章結構的自動標引算法。
2009年,章成志提出了基于集成學習的自動標引方法。
2012年,高影繁、徐紅姣等提出了基于多重過濾策略的自動標引方法。
2012年,杜冉冉提出了基于DOM的Web信息自動抽取技術。
2014年,高影繁等提出了一種基于過濾和權重平滑策略的標引詞自動抽取方法。
2014年,王星等利用文獻之間的引用關系,提出了基于引文的中文學術文獻自動標引方法。
2015年,許德山等基于本體管理平臺,實現了科技文獻領域詞和未登錄詞的自動標引。
2016年,李千駒等提出了一種基于知識組織的關鍵詞自動標引方法。
2017年,李軍蓮等通過多維特征概念通用度計算算法,結合STKOS超級科技詞表和專家審核,構建了面向文獻主題自動標引的英文通用概念表。
1.3.2 自動標引方法介紹
自動標引方法主要包括統計標引法、語言分析標引法、人工智能標引法、網頁標引法、概率標引法、詞典標引法等。下面對這些方法做一詳細介紹。
1.3.2.1 統計標引法
在各類自動標引的方法中,出現最早且被廣泛持續使用的是統計標引法。統計標引法的基本原理在于術語具有一些顯著的統計特征,如共現、逆文檔詞頻、熵、互信息等。統計標引法包括詞頻統計法、加權統計法、N-Gram標引法、統計學習法和分類判別統計法。
1.詞頻統計法
詞頻統計法是指通過對文獻中詞的出現頻率、共現頻率等統計指標進行統計排序,找出處于臨界域內、能真正表達文獻主題內容的詞,再根據情況選取適當數量的詞作為標引詞。
2.加權統計法
加權統計法是在詞頻統計法的基礎上引入了加權的概念,因為詞頻統計法雖然原理簡單且使用方便,但標引詞的選擇范圍較大,難以獲得較理想的標引結果。由此,人們在詞頻統計標引的過程中,加入了不同的加權概念,由此形成了位置加權法、相對加權法等加權統計方法。
位置加權法是根據詞在文獻中所在的位置來對詞取不同的權值后,再進行統計。例如,出現在文獻標題中的詞比出現在文獻正文中的詞更能代表文獻的主題,所以出現在文獻標題中的詞的加權系數就比出現在正文中的大。
相對加權法主要建立在相對頻率這一概念的基礎之上。相對頻率主要包括文內相對頻率和文外相對頻率兩種類型,其中,文內相對頻率是指某詞的絕對頻數與文獻中所有詞的絕對總頻數之比,文外相對頻率是指某詞在一篇文獻中的絕對頻數與其在所有文獻中的絕對總頻數之比。文內相對頻率和文外相對頻率都可看作是權值,以此加權即可獲得自動標引的抽詞依據。
3.N-Gram標引法
N-Gram標引法是指n(n>=1)個相鄰字符序列,對文本進行N-Gram處理即可得到該文本所包括的長度為n的字符串的集合。因為一種語言的N-Gram是有限的且較穩定,所以這種標引方法幾乎不受學科術語發展變化的影響。但是這種方法僅從形式上對N-Gram進行統計,會出現一定程度的標引詞不準、標引短語中缺詞等問題。
4.統計學習法
統計學習法由學習和標引兩個過程組成,通過一個學習過程建立標引與促進詞和削弱詞的關系,并在此基礎上確定標引詞的標引值。
5.分類判別統計法
分類判別統計法的主要特點是以詞的頻數或權值為基點,然后利用統計學中的數值分類法(如聚類分析、因子分析、多維排列或判別分析法)確定詞在含義上的相近和疏遠關系,同時也從統計的角度解決近義詞、同形異義詞、異形同義詞等問題。這類方法在自動賦詞標引中用得較多,在對標引文獻進行語義分析時也有所應用。
統計標引法不依賴標引詞的領域特征,能夠比較方便地在不同領域使用,有一定的使用效果,因而使用較普遍。但該方法只是對詞頻進行統計,忽略了詞語的語義信息,所以要取得更高的標引質量,還需同其他方法結合起來使用。
1.3.2.2 語言分析標引法
文獻是由自然語言構成的,標引對象自然也是語言,因而從語言學的角度去研究自動標引也是一種重要的方法。文獻可分為詞、句、語義、篇章等四個層次,語言分析標引法是對被標引的對象從這四個層次上來進行語法分析,以達到標引的目的。由此,語言分析標引法可以分為詞法分析標引法、句法分析標引法、語義分析標引法和篇章分析標引法。
1.詞法分析標引法
詞法分析標引法是對自然語言進行切分,即自動分詞,并對切分后的詞標注上詞性標記,然后從中提取出有意義的詞作為關鍵詞進行標引。此方法雖比較簡單易行,但在詞法分析過程中,會遇到未登錄詞的識別、切分出現歧義、兼類詞詞性的區分等問題,因此對詞表的維護非常重要。
2.句法分析標引法
句法分析標引法是從語法角度來確定每個詞在句子中的作用(如主語還是謂語),并通過找出詞之間的相互關系(如是修飾還是被修飾)來實現標引。它一般通過與事先準備好的解析規則或語法相比較來實現。
句法分析標引法又分為淺層句法分析標引法和深層句法分析標引法。淺層句法分析標引法只是將句子分解成詞語,但并不揭示這些詞之間的句法關系。深層句法分析標引法在把句子解析成詞語后,還要分析整個句子的語法,從而能夠最大限度地揭示出句子所包含的主題。
基于深層句法分析標引法主要有三種:
(1)DSIS系統。DSIS系統是由印度學者Devadason在1985年提出的基于深層結構的標引系統。它主要是以文獻標題作為分析對象,從中歸納出可能反映主題內容的范圍,再根據句法規則對標題進行語法分析,通過詞表進行處理,最后實現標引。
(2)FASIT標引法。FASIT標引法是由Dillon及其同事于1983年提出的基于概念層次的標引方法。它通過選擇出的概念來描述句子,提高了句法分析的準確性;通過概念歸類有效地解決了相同概念的多種不同形式詞語的聚類問題,減少了單純由詞語標引造成的查檢的準確率高但全面率低的情況。
(3)COPSY標引法。COPSY標引法是由西門子公司在1988年提出的基于名詞詞語句法分析的標引方法。它將名詞短語的中心詞-限定語結構,構造為名詞詞語的從屬樹結構。這種從屬樹具有結構嚴謹、表現能力強、容易組織等特點,既可描述文獻主題,也可描述提問要求,更便于進行檢索匹配。
通過實驗,我們發現各類句法分析標引法在準確率上仍然不是很高。造成這一現象的原因是標引詞的詞義具有模糊性,而句法分析本身很難消除詞義的模糊性,影響到了關鍵詞的識別結果。Salon曾指出,所有的句法分析必須輔以語義分析,才能保證標引效果的準確性。
3.語義分析標引法
語義分析標引法是分析詞在特定的上下文中的確切含義,并在此基礎上選擇出與主題含義相同的標引詞。
常見的語義分析標引法主要有以下三種:
(1)潛在語義分析法。潛在語義分析法是由Deerwester等于1990年提出的基于單值分解方法的標引方法。它通過單值分解,把分散在不同文獻中語義相關的詞,以及主題語義接近的文獻放置在相鄰的位置,使得即使提問檢索詞與文獻不匹配,也可以得到較準確的檢索結果。
(2)相信函數模型。相信函數模型是由Silva和Milidiu于1993年提出的基于敘詞在標引敘詞表中出現頻率的基本概率數為標準的標引方法。
(3)語義矢量空間模型。語義矢量空間模型是基于句法分析和格式語義結構的一種自動標引方法。它在矢量空間模型的基礎上,加入了格式語義結構,通過標引詞的語義矢量構造描述文獻的語義矩陣,使文獻的標引得以在語言的深層結構——語義層上實現。
同句法分析相比,語義分析在自動標引中的使用范圍和效果都強于前者。
4.篇章分析標引法
篇章分析標引法是通過計算機找出篇章中內容相關的片斷(詞、句、句群、段、篇等),并在它們之間建立各種索引,如超媒體和超文本結構中鏈接索引,以便用戶能快速檢索出所需要的內容,或者跳段瀏覽最感興趣的部分。
篇章分析標引法的方法有框架(frame)理論、基于規劃的方法等。
總的來說,語言分析標引法都需要設定相應的關鍵詞模式,而模式的建立都需要依賴人來完成,如果模式建立不健全,就會影響到識別的效率,同時在詞間關系的識別上尚缺有力試驗的驗證。
1.3.2.3 人工智能標引法
人工智能是計算機科學的一個分支,它專門研究怎樣用機器理解和模擬人類特有的智能系統的活動,探索人們如何運用已有的知識、經驗和技能去解決問題。
人工智能標引法是指通過計算機模擬標引員來完成文獻的標引。人工智能標引法運用于自動標引,可分為一般機器學習法、集成學習法和專家系統。
1.一般機器學習法
一般機器學習法是采用數值建模的方法,通過對訓練數據進行訓練獲得參數,進行樣本的自動標引。
2.集成學習法
集成學習法是通過構建多分類器來進行自動標引。
3.專家系統
專家系統是人工智能法應用于自動標引的具體體現。它將特定領域專家們的知識和經驗等通過編程建成知識庫,供他人在解決相應問題時借鑒和利用。也就是說,專家系統是一個具有大量標引專門知識與經驗的程序系統,它應用人工智能技術和計算機技術,根據標引專家提供的知識和經驗進行推理與判斷,模擬人類標引員的決策過程,以進行標引。
專家系統的標引方法主要有以下三種:
(1)MedIndEx系統。MedIndEx系統是由美國國家圖書館在1987年建立起來的醫學標引專家系統。在此系統中,對文獻的描述,框架比關鍵詞更加準確,適合于表示典型的概念和事件。
(2)JAKS系統。JAKS系統是由美國參謀長聯席會議開發的自動抽取關鍵詞專家系統。它模擬人工抽取關鍵詞,用來自動檢索、自動分類和自動存儲數據。
(3)WordViews系統。WordViews系統是由美國AT&T公司的貝爾實驗室在1993年建立的基于語義網絡表示法的人工智能標引系統。
人工智能法進行標引的效果取決于人工智能研究自身進展。人工智能法實施的前提是建立數據量足夠大的訓練庫或知識庫,其效果的提升有賴于機器學習的能力與速度的提高。盡管人工智能法進行自動標引比其他方法要困難,但它能從標引員的角度去了解標引過程,模擬標引員的行為。因此,可以預見,隨著技術的進步,人工智能標引法會有長足的發展空間。
1.3.2.4 網頁標引法
網頁自動標引是指計算機自動從網頁中提取出具有檢索價值的信息,該方法以詞頻統計為基礎。目前,幾乎所有重要的搜索引擎都采用全文索引方式,分析網頁的所有詞匯,并依據詞頻、詞匯在網頁中出現的位置等確認詞匯的權重,選擇標引詞。
網頁自動標引方法可分為三種,分別為基于知識庫的網頁自動標引、基于統一內容定位(uniform content locator, UCL)的網頁自動標引和基于遺傳算法的網頁自動標引。
1.基于知識庫的網頁自動標引
基于知識庫的網頁自動標引是中文網頁自動標引和分類的主要思想,是根據情報語言學的原理,用分類號控制主題詞,用主題詞控制關鍵詞,構建以概念語義網絡——《中圖法》為基礎的知識庫,在知識庫的基礎上,能實現分類語言、主題語言和自然語言三者的標引與檢索一體化,實現自動標引和自動分類。
2.基于UCL的網頁自動標引
基于UCL的網頁自動標引主要是應用基于信息內容理解和智能實現的URL技術,提取網頁中的標引信息。UCL是在信息源制作階段對資源內容按照預先設定的標準進行自動歸類并貼上標簽,通過內容篩選機制,主動遞交有用網頁。它根據用戶訪問某類信息的頻度或用戶的定制,自動向用戶提供相關的信息,從而改變用戶對網頁信息的獲取方式,實現個性化服務,并極大地節省用戶用于查找網頁內容的時間。UCL通常是對資源內容的類別、主題、出處、作者、關鍵詞等做出多維度的標引。
3.基于遺傳算法的網頁自動標引
基于遺傳算法的網頁自動標引從標引詞應反映文獻主題內容這一原則出發,改進了加權詞頻統計法的標引源權值的設置,利用遺傳算法在文檔集上尋優得到網頁標引源的最優權值設置,再將最優權值設置的模型應用于網頁信息自動標引。對于網頁信息自動標引的標引源,主要考慮詞語的頻率(term frequency-inverse document frequency, TF-IDF)、詞串的長度、詞語首次出現的位置以及詞語是否出現在HTML控制標識符<TITLE>中。基于遺傳算法的網頁信息自動標引能達到較好的自動標引效果,有效地提高了標引源的權值設置的合理性、準確性。
1.3.2.5 概率標引法
概率標引法是基于出現概率、相關概率和決策概率來標引文獻的標引方法。出現概率論的應用是基于標引詞在文獻中出現頻數的概率有規律可循,常用的有二值獨立性標引模型;相關概率論的應用是基于標引詞反映的文獻主題內容在檢索中可以通過概率表示,常用的有RPI模型;決策概率論的應用是基于某標引詞賦予某文獻這一決策事件正確的概率,常用的有DIA標引方法。
1.3.2.6 詞典標引法
詞典標引法的實現原理:文獻根據設計的算法,匹配事先構造好的詞典(如主題詞詞典、關鍵詞詞典、部件詞典等),若匹配成功,則該詞就被表示為標引詞。
以上介紹的各種自動標引方法各有所長,但也都存在著不夠完善的地方,因此我們在建立自動標引系統的時候,應根據實現情況,混合各種方法,取各方所長,綜合運用,以期獲得最準確的標引效果。
1.3.3 自動標引方法研究的不足與發展方向
1.3.3.1 自動標引方法研究的不足
自動標引通過近幾十年的發展,已取得了長足的進步,但國內自動標引的研究仍存在不足,主要表現在以下幾個方面。
1.中文分詞算法存在缺陷
找出各知識單元,是進行標引的第一步,但由于中文的特殊性,使得中文分詞一直存在問題。中文在基本文法上的特點是詞語之間沒有間隔,同時又有大量歧義詞的存在,這些都造成詞的邊界模糊,不易區分,從而降低了中文自動分詞的準確性,進而影響了以此為基礎的自動標引的質量。
2.詞表、知識庫更新率低
現代社會,各學科發展迅速,詞匯的更新速度也非常快。但現在詞表的編制依然較慢,新詞匯不能及時更新到抽詞詞表中。同時,知識學習的問題,現階段也未能得到有效解決,使得知識庫更新慢,趕不上學科發展的速度。這些都影響到了自動標引的準確性。
3.多媒體信息的自動標引研究不成熟
國內對自動標引的研究側重于文本信息,而對于多媒體信息的自動標引研究較少。對于圖像、音頻、視頻等多媒體信息,國內仍采用基于文本的傳統標引方法。這樣的方法耗時長、成本高,且主觀性強,不能滿足標引的要求。隨著計算機、圖像處理、人工智能等技術的發展,人們轉而研究多媒體信息的基于內容的自動標引方法。目前,在國外,這方面的研究已經成了新熱點。但現有的理論研究與系統大都集中于多媒體信息內容的底層特征,標引的精度和深度都不夠,離實際應用還有相當長的一段距離。
4.標引結果評價
標引工作完成,需要有一個判別、修正的過程。傳統的自動標引評價是對照人工標引結果或由專家打分,該方法主觀性大、一致性差、成本高。因此,應建立一個自動標引的通用評價模型,以減少自動標引評價的主觀性,節省評價成本。
1.3.3.2 自動標引方法研究的發展方向
針對以上所提出的自動標引方法研究的不足,自動標引方法研究的發展方向將圍繞其提出解決的辦法。
1.發展語言分析技術
語言分析技術是對詞法、句法、語義、篇章等進行分析的方法,是自動分詞的基礎。語言分析技術的提高,有助于標引效果的提升。中文文法的特殊性,造成了分詞的困難,同時在現階段計算機技術水平下,要把具有不確定性和模糊性的知識用規則形式表達出來,也具有一定的難度,但語言分析是取得良好標引效果的必要條件。因此,探求更高端的語言分析方法,是今后自動標引研究的發展方向之一。
2.發展專家系統的智能學習能力
要提高詞表和知識庫的更新率,使其能跟上學科發展的速度,就需要提高專家系統的智能學習能力。如何提高專家系統的智能學習能力,也就成了自動標引研究的發展方向之一。
3.發展多媒體信息自動標引方法
隨著多媒體技術的不斷發展,多媒體信息也成了一個重要的信息源,但現在對其自動標引的研究還處于起步階段。因此,今后我們要把探索基于多媒體信息內容的高層次特征的自動標引方法作為自動標引研究的發展方向之一。
4.發展自動標引效果評價系統
自動標引效果的評價是衡量標引系統或方法功效的重要手段,客觀、準確的評價能夠促進自動標引技術的發展。自動標引效果的評價主要依據關鍵詞語義相似度進行,要求評價客觀,各階段中各參與者的判斷標準一致,并且運營成本較低。因此,構建自動標引的通用評價模型,提高關鍵詞語義相似度計算的可靠度,整合更多方法提高評價模型的準確度,減少評價的主觀性,節省評價成本,也是自動標引研究的發展方向之一。
5.發展多種標引方法的集成學習
不同的標引方法都有其優劣勢,單一一種標引方法的使用,不能表現出最優的標引效果,因此把多種標引方法集成起來,進行互補學習,可有效地提高標引的質量。如何進行集成學習,便于各種標引方法的優劣勢互補,也是自動標引研究的發展方向之一。