官术网_书友最值得收藏!

2.1 知識抽取概述

知識抽取可以幫助我們從非結構化及半結構化數據中獲取有用的信息,找出數據之間的實體及其關系。圖2-1給出知識抽取在知識圖譜技術架構中的位置。接下來,我們從知識抽取的定義及任務開啟知識抽取的學習之路。

圖2-1 知識圖譜技術架構中的知識抽取

2.1.1 知識抽取的定義

知識圖譜的信息資源通常由清楚的、事實性的信息組成。在2019年發表的《知識圖譜標準化白皮書》(以下簡稱標準化白皮書)中對知識抽取的定義是:從不同來源、不同結構的信息資源中進行知識提取,形成結構化的知識并存儲到知識圖譜中。

一般來說,知識抽取主要面向鏈接開放數據,通過一系列自動化或半自動化的技術手段,從半結構化、非結構化的數據中提取出實體、關系及屬性等知識要素,并以此為基礎,形成一系列高質量的事實表達,為上層模式層的構建奠定基礎。知識抽取不僅需要抽取實體及屬性,還要基于語句和語境抽取出實體間的關系以及實體所描述的事件。

目前,面向互聯網爆炸式增長的海量文本數據的知識抽取,是關于知識圖譜構建研究的主流方向之一,已有很多知識抽取的方法被提出來應對文本數據量巨大的問題。

雖然我們經常說知識抽取是知識圖譜構建的第一步,但是嚴格意義上,知識抽取是建立在獲取到的各類數據上的。獲取方法多種多樣,通常有眾包法、爬蟲法、機器學習法和專家法4種,標準化白皮書中具體介紹了這4種方法。數據獲取更像是數據搜集的過程,其過程、原理等內容不是知識圖譜構建的重點,因此不做過多講解。

我們要繼續深入知識抽取的任務中,以了解知識抽取在實際場景中的不斷發展和進步,這會幫助我們充分掌握知識抽取的概念。

2.1.2 知識抽取的任務

在日常的生產生活中,絕大多數情況下獲取的都是非結構化的數據,尤以文本數據居多。為了更透徹地學習知識抽取的內容,接下來以文本數據為例,介紹知識抽取的任務。

面向互聯網海量文本數據的知識抽取,通常也叫作信息抽取。信息抽取最受關注的子任務包括:實體抽取、實體鏈接、關系抽取、屬性抽取和事件抽取。其中實體鏈接(Entity Linking, EL)與知識融合中的實體鏈接不同。知識抽取中的實體鏈接只涉及抽取內容的鏈接,不涉及知識庫內部實體之間的鏈接,后續內容將會體現這一點。

1.實體抽取

實體抽取也稱為命名實體識別(Named Entity Recognition, NER),是指從文本語料庫中自動識別出專有名詞(如機構名、地名、人名等),以及有意義的時間或名詞性短語。經過實體抽取之后得到的命名實體、普通名詞短語以及代詞等稱為實體指稱,實體指稱是實體的文本表現形式。實體抽取的準確性將直接影響知識抽取的質量和效率,因此實體抽取也是知識圖譜構建和知識抽取的基礎與關鍵。

早期實體抽取方法主要面向單一領域,關注如何識別出文本中的機構名、人名、地名等專有名詞的實體信息。這一期間產生了基于規則的方法,但這類方法具有明顯的缺點和局限性,可擴展性差以至于難以適應數據的變化,還需要耗費大量人力。

為了解決這些問題,相繼提出了基于規則和監督學習相結合的方法、半監督方法、遠程監督方法以及海量數據自學習方法等。隨著命名實體識別技術不斷取得進展,學術界不再限定特定的知識領域,而是面向開放的互聯網,研究和解決全網知識抽取問題。為了研究開放域知識抽取的問題,需要先建立一個可以指導算法研究的完整的科學命名實體分類體系,同時該分類體系要便于對抽取得到的實體指稱數據進行管理。實體分類體系的基本思想是采用統計機器學習的方法,對任意給定的實體,從目標數據集中抽取出與之具有相似上下文特征的實體指稱,實現實體指稱的分類和聚類。

在面向開放域的實體識別和分類研究中,不需要為每個領域或每個實體類別建立單獨的語料庫作為訓練集,而是從給定的少量實體實例中自動發現具有區分力特征的模型。

2.實體鏈接

前期的知識抽取基本技術,雖然實現了獲取實體指稱、關系以及實體屬性信息的目標,但是還缺少必要的清理和整合環節,因為這些結果中可能包含大量的冗余和錯誤信息,數據之間的關系也是扁平化的,缺乏層次性和邏輯性。

關于實體鏈接,很多文獻說法都不一樣。我們通常把文本中的實體指稱對應到知識圖譜中的正確實體對象的鏈接技術叫作實體鏈接,它將文本中的實體指稱映射到給定的知識庫。也可以說,實體鏈接是指將實體指稱對象鏈接到知識庫中正確實體對象的操作。實體鏈接在許多領域起到了關鍵性作用,例如信息提取、語義搜索和問答匹配等。

實體鏈接的基本思想是首先準備好包含一系列實體的知識庫與經過實體抽取得到的標注好指稱項的語料,然后將每一個指稱項與知識庫進行匹配,從知識庫中選出一組候選實體對象,最后通過相似度計算將指稱項鏈接到正確的實體對象,以解決實體名的歧義性和多樣性問題。而將文本中的實體名指向其所代表的真實世界的實體,通常被稱為實體消歧。

例如,在“北京時間2020年4月15日深夜,蘋果發布了最新款iPhone X,3299元起售的iPhone X正式上架。”語句中,實體鏈接系統需要將文本中的“蘋果”與其真實世界所指的“蘋果公司”進行對應,iPhone X與“蘋果手機”進行對應,而不是我們常吃的“蘋果”水果。而將語料中多個指稱項指向知識庫中的同一實體對象,通常被稱為共指消解。

再如:

中國古典名著《西游記》中的唐僧,俗家姓陳,生于河南洛陽,法號“玄奘”,被尊稱為三藏法師,也是孫悟空的師傅。

其中,玄奘法師、孫悟空師傅、三藏法師等多個指稱項對應的實體對象都是“唐僧”。

在知識抽取中,一般認為實體鏈接包括實體消歧和共指消解,三者關系的示意圖如圖2-2所示。

圖2-2 實體鏈接、實體消歧與共指消解關系的示意圖

實體鏈接的一般流程如下。

1)候選實體生成:從文本中通過實體抽取得到實體指稱項,即每個實體在知識庫中獲得的一組引用實體作為候選實體。

2)實體消歧與共指消解:實體消歧與共指消解是判斷與知識庫中的同名實體的含義是否相同,可通過計算實體和候選實體之間的相似度的排序來選擇可能的候選實體。

3)在知識庫中確認正確的實體對象之后,將該實體指稱項鏈接到對應的實體對象上。

我們將現有的實體鏈接模型分為兩種:本地模型和全局模型。本地模型根據實體的上下文信息來實現實體鏈接。全局模型利用文檔中的所有實體和其目標實體的全局一致性來實現實體鏈接。而在實體鏈接的流程中,實體消歧和共指消解是整個實體鏈接流程的核心,接下來,我們將詳細介紹實體消歧和共指消解。

顧名思義,實體消歧是專門用于消除同名實體產生歧義問題的技術。在實際語言環境中,經常會遇到某個實體指稱項對應多個命名實體對象的問題。例如在上面的例子中,“蘋果”指稱項可以對應多個實體對象。實體消歧主要采用聚類法,即將所有指向該指稱項的實體對象聚集到此類別下。聚類法消歧的關鍵是如何定義實體對象與指稱項之間的相似度,常用的方法有以下4種。

?空間向量模型(詞袋模型):通常取當前語料中實體指稱項周邊的詞構成特征向量,然后利用向量的余弦相似度進行比較,之后將該指稱項聚類到與之最相近的實體指稱項集合中。該方法的缺點是沒有考慮上下文語義信息,這種信息損失會導致在某些情況下算法性能大幅下降,如短文本分析。

?語義模型:該模型與空間向量模型類似,區別在于特征向量的構造方法不同,語義模型的特征向量不僅包含詞袋向量,而且包含一部分語義特征,語義特征與詞袋模型相結合,能夠得到更精確的相似度計算結果。

?社會網絡模型:該模型認為在社會化語境中,實體指稱項的意義在很大程度上是由與其相關聯的實體所決定的。在建模時,首先利用實體間的關系將與之相關的指稱項鏈接起來構成網絡,然后利用社會網絡分析技術計算該網絡中節點(實體的指稱項)之間的拓撲距離,以此來判定指稱項之間的相似度。

?百科知識模型:百科類網站通常會為每個實體(指稱項)分配一個單獨頁面,其中包括指向其他實體頁面的超鏈接,百科知識模型正是利用這種鏈接關系來計算實體指稱項之間的相似度。這種建立在百科類網站基礎上的實體消歧結果目前是最好的,但是由于百科類知識庫中的實體數非常有限,此類方法的推廣性較差。

顧名思義,共指消解是主要用于解決多個指稱項對應于同一實體對象問題的技術。例如在上面的例子中,“玄奘法師”“孫悟空師傅”“三藏法師”等多個指稱項對應的實體對象都是“唐僧”。共指消解技術可以將這些指稱項關聯到正確的實體對象。由于該問題在信息檢索和自然語言處理等領域非常重要,吸引了大量學者進行研究,但學術界對該問題有多種不同的表述,在知識庫中,實體之間的實體消解也叫對象對齊、實體匹配以及實體同義等

共指消解問題的早期研究成果主要來自自然語言處理領域,近年來統計機器學習領域的學者越來越多地參與到這項工作中。隨著統計機器學習方法被引入該領域,共指消解技術進入了快速發展階段。除了可以將共指消解問題視為分類問題之外,還可以將其作為聚類問題來求解。聚類法的基本思想是以實體指稱項為中心,通過實體聚類實現指稱項與實體對象的匹配,其關鍵問題是如何定義實體間的相似性測度。

而基于統計機器學習的共指消解方法通常受限于兩個方面:訓練數據的(特征)稀疏性和難以在不同的概念上下文中建立實體關聯。一種評估術語相似度的實體相似性測度模型被提出,它可以從全局語料中得到所有術語間的統計意義上的相似性,據此完成實體合并,達到共指消解的目的。后來有研究者將網頁點擊相似性和文檔相似性相結合,提出了一種新的查詢上下文相似性測度方法,該方法能夠有效識別同義詞,顯著提高了查全率。

3.關系抽取

與實體抽取相比,關系抽取更加復雜,大多數關系都有一定的隱含性(關系表示不明顯)和關系自身的復雜性(不同實體之間有多對關系或者同一實體的不同關系)。

統計機器學習方法通過對實體間關系的模式進行建模,替代預定義的語法和語義規則。而大量基于特征向量或核函數的有監督學習方法,也使得關系抽取的準確性不斷提高。由于在相似度計算過程中對匹配約束比較嚴格,基于核函數方法的召回率普遍較低,因此后續主要圍繞改進召回率展開研究。

隨著語料的增多,以及深度學習在圖像和語音領域獲得成功,知識抽取也逐漸轉向了基于神經模型的研究。有人提出聯合抽取模型,利用神經網絡模型不需要加入太多特征(一般可用的特征有詞向量、位置等)的特點,可以同時抽取實體之間的關系。聯合抽取模型的優點是可以避免流水線模型[1]存在的錯誤累積。但無論是流水線方法還是聯合抽取方法,都屬于有監督學習,因此需要大量的訓練語料,尤其是采用神經網絡的方法,需要大量的語料進行模型訓練,但這些方法都不適用于構建大規模的知識圖譜。近年來關系抽取的研究重點逐漸轉向半監督和無監督的學習方式,并已經有一系列的成果。

以上研究都需要預先定義實體關系類型,例如雇傭關系、整體部分關系以及位置關系等。然而在實際應用中,要想定義出一個完美的實體關系分類系統是十分困難的。2007年,華盛頓大學圖靈中心的Banko等人提出了OIE(Open Information Extraction,面向開放域的知識抽取方法框架),并發布了基于自監督(Self-supervised)學習方式的開放知識抽取原型系統(TextRunner)。該系統采用少量人工標記數據作為訓練集,據此得到一個實體關系分類模型,再依據該模型對開放數據進行分類,依據分類結果訓練樸素貝葉斯模型來識別“實體-關系-實體”三元組,經過大規模真實數據測試,取得了顯著優于同時期其他方法的結果。

OIE技術直接利用語料中的關系詞匯對實體關系進行建模,因此不需要預先指定關系的分類。另外,基于聯合推理的關系抽取方法還有馬爾可夫邏輯網(Markov Logic Network, MLN),它是一種將馬爾可夫網絡與一階邏輯相結合的統計關系學習框架,也是在OIE中融入推理的一種重要實體關系抽取模型。此外,有研究人員使用語句級注意力機制的卷積神經網絡模型對通過遠程監督訓練的數據集進行噪聲過濾,達到了提高準確率的效果。

4.屬性抽取

屬性主要是針對實體而言的,以實現對實體的完整描述。由于可以把實體的屬性看作實體與屬性值之間的一種名詞性關系,因此屬性抽取任務就可以轉化為關系抽取任務。

對屬性抽取的任務來說,盡管可以從百科類網站獲取大量實體屬性數據,但大量的實體屬性數據隱藏在非結構化的公開數據中。如何從海量的非結構化數據中抽取實體屬性是值得關注的問題。一種方案是基于百科類網站的半結構化數據,通過自動抽取生成訓練語料,以此訓練實體屬性標注模型,然后將其應用于對非結構化數據的實體屬性抽取上。另一種方案是直接挖掘文本中實體屬性與屬性值之間的關系,據此實現對屬性名和屬性值在文本中的定位。這種方法的基本假設是屬性名和屬性值之間有位置上的關聯關系。事實上,在真實語言環境中,許多實體屬性值附近都存在一些限制和界定該屬性值含義的關鍵詞(屬性名),在自然語言處理技術中將這類屬性稱為有名屬性,因此可以利用這些關鍵詞來定位有名屬性的屬性值。

5.事件抽取

事件是指發生在某個特定時間點或時間段以及某個特定地域范圍內,由一個或者多個角色參與的動作組成的事情/狀態的改變。目前已存在的知識資源(如維基百科等)所描述的實體及實體間的關聯關系大多是靜態的,而一個事件可能會分布在多個句子中,并且要同時考慮多個元素,但事件能夠描述粒度更大的、動態的、結構化的知識,它是現有知識資源的重要補充。

通俗地說,事件抽取技術就是從種類眾多的非結構化信息中,抽取出實體之間有價值的事件,并以結構化的形式輔助實體的知識圖譜構建。事件抽取任務可以進一步分解為4個子任務——觸發詞識別、事件類型分類、論元(語言學概念,用來表示動作或事件的參與者)識別和角色分類,如圖2-3所示。其中,觸發詞識別和事件類型分類又可以合并稱為事件識別任務,而事件識別是判斷句子中的每個單詞歸屬的事件類型,是一個基于單詞的多分類任務。論元識別和角色分類可以合并稱為論元角色分類任務,論元角色分類任務是一個基于詞對的多分類任務,判斷句子中任意一對觸發詞和實體之間的角色關系。

另外,事件抽取任務又可以分為兩個大類:元事件抽取及主題事件抽取。其中,元事件表示一個動作的發生或狀態的變化,往往由動詞驅動,也可以由能表示動作的名詞等其他詞性的詞來觸發,它包括參與該動作行為的主要成分,如時間、地點、人物等。而主題事件包括事件或活動,它可以由多個元事件片段組成。當前研究主要是面向元事件抽取,而對主題事件抽取的研究較少。

圖2-3 事件抽取任務分類

依據事件抽取的手段,可以將其分為模式匹配與統計學兩種。在事件抽取發展的早期,一般通過諸如語法樹、正則表達式等人工編寫的規則模板來判斷,但是這種方法極度依賴人工規則的質量,且準確率有限。而后事件抽取可以使用弱監督學習進行匹配。現在主流的事件抽取方法則是使用基于統計學的機器學習與深度學習來實現。例如,利用BERT等預訓練模型將事件提取的F值提高了10%以上。

主站蜘蛛池模板: 马公市| 芦山县| 航空| 伊川县| 泽库县| 景泰县| 上杭县| 宜黄县| 武平县| 庄河市| 安阳市| 珲春市| 丹阳市| 尚志市| 娄烦县| 鸡西市| 娄烦县| 康马县| 河津市| 平利县| 武汉市| 沈阳市| 大厂| 永城市| 齐河县| 阿荣旗| 彝良县| 祁东县| 高安市| 武胜县| 吉林省| 江津市| 徐州市| 双鸭山市| 绥棱县| 临沭县| 莫力| 青冈县| 漯河市| 潜江市| 南岸区|