官术网_书友最值得收藏!

1.5 知識圖譜的技術流程

知識圖譜用于表達更加規范的高質量數據。一方面,知識圖譜采用更加規范而標準的概念模型、本體術語和語法格式來建模和描述數據;另一方面,知識圖譜通過語義鏈接增強數據之間的關聯。這種表達規范、關聯性強的數據在改進搜索、問答體驗、輔助決策分析和支持推理等多個方面都能發揮重要的作用。

知識圖譜方法論涉及知識表示、知識獲取、知識處理和知識利用多個方面。一般流程為:首先確定知識表示模型,然后根據數據來源選擇不同的知識獲取手段導入知識,接著綜合利用知識推理、知識融合、知識挖掘等技術對構建的知識圖譜進行質量提升,最后根據場景需求設計不同的知識訪問與呈現方法,如語義搜索、問答交互、圖譜可視化分析等。下面簡要概述這些技術流程的核心技術要素。

1.知識來源

可以從多種來源獲取知識圖譜數據,包括文本、結構化數據庫、多媒體數據、傳感器數據和人工眾包等。每一種數據源的知識化都需要綜合各種不同的技術手段。例如,對于文本數據源,需要綜合實體識別、實體鏈接、關系抽取、事件抽取等各種自然語言處理技術,實現從文本中抽取知識。

結構化數據庫如各種關系數據庫,也是最常用的數據來源之一。已有的結構化數據庫通常不能直接作為知識圖譜使用,而需要將結構化數據定義到本體模型之間的語義映射,再通過編寫語義翻譯工具實現結構化數據到知識圖譜的轉化。此外,還需要綜合采用實體消歧、數據融合、知識鏈接等技術,提升數據的規范化水平,增強數據之間的關聯。

語義技術也被用來對傳感器產生的數據進行語義化。這包括對物聯設備進行抽象,定義符合語義標準的數據接口;對傳感數據進行語義封裝和對傳感數據增加上下文語義描述等。

人工眾包是獲取高質量知識圖譜的重要手段。例如,Wikidata和Schema.org都是較為典型的知識眾包技術手段。此外,還可以開發針對文本、圖像等多種媒體數據的語義標注工具,輔助人工進行知識獲取。

2.知識表示與Schema工程

知識表示是指用計算機符號描述和表示人腦中的知識,以支持機器模擬人的心智進行推理的方法與技術。知識表示決定了圖譜構建的產出目標,即知識圖譜的語義描述框架(Description Framework)、Schema與本體(Ontology)、知識交換語法(Syntax)、實體命名及ID體系。

基本描述框架定義知識圖譜的基本數據模型(Data Model)和邏輯結構(Structure),如國際萬維網聯盟(World Wide Web Consortium,W3C)的RDF。Schema與本體定義知識圖譜的類集、屬性集、關系集和詞匯集。交換語法定義知識實際存在的物理格式,如Turtle、JSON等。實體命名及ID體系定義實體的命名原則及唯一標識規范等。

按知識類型的不同,知識圖譜包括詞(Vocabulary)、實體(Entity)、關系(Relation)、事件(Event)、術語體系(Taxonomy)、規則(Rule)等。詞一級的知識以詞為中心,并定義詞與詞之間的關系,如WordNet、ConceptNet等。實體一級的知識以實體為中心,并定義實體之間的關系、描述實體的術語體系等。事件是一種復合的實體。

W3C的RDF把三元組(Triple)作為基本的數據模型,其基本的邏輯結構包含主語(Subject)、謂詞(Predicate)、賓語(Object)三個部分。雖然不同知識庫的描述框架的表述有所不同,但本質上都包含實體、實體的屬性和實體之間的關系幾個要素。

3.知識抽取

知識抽取按任務可以分為概念抽取、實體識別、關系抽取、事件抽取和規則抽取等。傳統專家系統時代的知識主要依靠專家手工錄入,難以擴大規?!,F代知識圖譜的構建通常大多依靠已有的結構化數據資源進行轉化,形成基礎數據集,再依靠自動化知識抽取和知識圖譜補全技術,從多種數據來源進一步擴展知識圖譜,并通過人工眾包進一步提升知識圖譜的質量。

結構化和文本數據是目前最主要的知識來源。從結構化數據庫中獲取知識一般使用現有的D2R工具[32],如Triplify、D2RServer、OpenLink、SparqlMap、Ontop等。從文本中獲取知識主要包括實體識別和關系抽取。以關系抽取為例,典型的關系抽取方法可以分為基于特征模板的方法[33]、基于核函數的監督學習方法[36]、基于遠程監督的方法[45][46]和基于深度學習的監督或遠程監督方法,如簡單CNN、MP-CNN、MWK-CNN、PCNN、PCNN+ Att和MIMLCNN等[47]。遠程監督的思想是,利用一個大型的語義數據庫自動獲取關系類型標簽。這些標簽可能是含有噪聲的,但是大量的訓練數據在一定程度上可以抵消這些噪聲。另外,一些工作通過多任務學習等方法將實體和關系做聯合抽取[46][53]。最新的一些研究則利用強化學習減少人工標注并自動降低噪聲[54]。

4.知識融合

在構建知識圖譜時,可以從第三方知識庫產品或已有結構化數據中獲取知識輸入。例如,關聯開放數據項目(Linked Open Data)會定期發布其經過積累和整理的語義知識數據,其中既包括前文介紹過的通用知識庫DBpedia和Yago,也包括面向特定領域的知識庫產品,如MusicBrainz和DrugBank等。當多個知識圖譜進行融合,或者將外部關系數據庫合并到本體知識庫時,需要處理兩個層面的問題:通過模式層的融合,將新得到的本體融入已有的本體庫中,以及新舊本體的融合;數據層的融合,包括實體的指稱、屬性、關系以及所屬類別等,主要的問題是如何避免實例以及關系的沖突問題,造成不必要的冗余。

數據層的融合是指實體和關系(包括屬性)元組的融合,主要是實體匹配或者對齊,由于知識庫中有些實體含義相同但是具有不同的標識符,因此需要對這些實體進行合并處理[55][56]。此外,還需要對新增實體和關系進行驗證和評估,以確保知識圖譜的內容一致性和準確性,通常采用的方法是在評估過程中為新加入的知識賦予可信度值,據此進行知識的過濾和融合。實體對齊的任務包括實體消歧和共指消解,即判斷知識庫中的同名實體是否代表不同的含義以及知識庫中是否存在其他命名實體表示相同的含義。實體消歧專門用于解決同名實體產生歧義的問題,通常采用聚類法,其關鍵問題是如何定義實體對象與指稱項之間的相似度,常用方法有空間向量模型(詞袋模型)[57]、語義模型[58]、社會網絡模型[59]、百科知識模型[60]和增量證據模型[61]。一些最新的工作利用知識圖譜嵌入方法進行實體對齊,并引入人機協作方式提升實體對齊的質量[62][63]。

本體是針對特定領域中Schema定義、概念模型和公理定義而言的,目的是彌合詞匯異構性和語義歧義的間隙,使溝通達成共識。這種共識往往通過一個反復的過程達到,每次迭代都是一次共識的修改。因此,本體對齊通常帶來的是共識模式的演化和變化,本體對齊的主要問題之一也可以轉化為怎樣管理這種演化和變化[64]。常見的本體演化管理框架有KAON[65]、Conto-diff[66]、OntoView等。

5.知識圖譜補全與推理

常用的知識圖譜補全方法包括:基于本體推理的補全方法,如基于描述邏輯的推理[67],以及相關的推理機實現,如RDFox、Pellet、RACER、HermiT、TrOWL等。這類推理主要針對TBox,即概念層進行推理,也可以用來對實體級的關系進行補全。

另外一類的知識補全算法實現基于圖結構和關系路徑特征的方法,如基于隨機游走獲取路徑特征的PRA算法[70]、基于子圖結構的SFE算法[71]、基于層次化隨機游走模型的PRA算法[72]。這類算法的共同特點是通過兩個實體節點之間的路徑,以及節點周圍圖的結構提取特征,并通過隨機游走等算法降低特征抽取的復雜度,然后疊加線性的學習模型進行關系的預測。此類算法依賴于圖結構和路徑的豐富程度。

更為常見的補全實現是基于表示學習和知識圖譜嵌入的鏈接預測[73],簡單的如前面介紹最基本的翻譯模型、組合模型和神經元模型等。這類簡單的嵌入模型一般只能實現單步的推理。對于更為復雜的模型,如向量空間中引入隨機游走模型的方法,在同一個向量空間中將路徑與實體和關系一起表示出來再進行補全的模型[81][82]。

文本信息也被用來輔助實現知識圖譜的補全[83]。例如,Jointly(w)、Jointly(z)、DKRL、TEKE、SSP等方法將文本中的實體和結構化圖譜中的實體對齊,然后利用雙方的語義信息輔助實現關系預測或抽取。這類模型一般包含三個部分:三元組解碼器、文本解碼器和聯合解碼器。三元組解碼器將知識圖譜中的實體和關系轉化為低維向量;文本解碼器則要從文本語料庫中學習實體(詞)的向量表示;聯合解碼器的目的是要保證實體、關系和詞的嵌入向量位于相同的空間中,并且集成實體向量和詞向量。

6.知識檢索與知識分析

基于知識圖譜的知識檢索的實現形式主要包括語義檢索和智能問答。傳統搜索引擎依靠網頁之間的超鏈接實現網頁的搜索,而語義搜索直接對事物進行搜索,如人物、機構、地點等。這些事物可能來自文本、圖片、視頻、音頻、IoT設備等各種信息資源。而知識圖譜和語義技術提供了關于這些事物的分類、屬性和關系的描述,使得搜索引擎可以直接對事物進行索引和搜索。

知識圖譜和語義技術也被用來輔助做數據分析與決策。例如,大數據公司Plantir基于本體融合和集成多種來源的數據,通過知識圖譜和語義技術增強數據之間的關聯,使得用戶可以用更加直觀的圖譜方式對數據進行關聯挖掘與分析。近年來,描述性數據分析(Declarative Data Analysis)越來越受到重視[89]。描述性數據分析是指依賴數據本身的語義描述實現數據分析的方法。不同于計算性數據分析主要以建立各種數據分析模型,如深度神經網絡,描述性數據分析突出預先抽取數據的語義,建立數據之間的邏輯,并依靠邏輯推理的方法(如DataLog)實現數據分析[90]

主站蜘蛛池模板: 壤塘县| 尚义县| 丰都县| 阿克苏市| 聂拉木县| 滕州市| 黔西| 吉水县| 延川县| 介休市| 民权县| 堆龙德庆县| 扬中市| 都江堰市| 富裕县| 漳平市| 罗田县| 惠水县| 浦县| 竹北市| 上蔡县| 邯郸市| 辉南县| 双桥区| 乌恰县| 错那县| 南宁市| 鹤峰县| 甘肃省| 洪雅县| 龙州县| 湖州市| 元氏县| 尖扎县| 留坝县| 桂林市| 洪泽县| 呼和浩特市| 泊头市| 育儿| 罗田县|