官术网_书友最值得收藏!

2.3 知識圖譜表示學習

知識圖譜(Knowledge Graph,KG)旨在描述客觀世界的概念、實體、事件及其之間的關系。其中,概念是指人們在認識世界的過程中所形成的對客觀事物的概念化表示,如人、動物、組織機構等;實體是客觀世界中的具體事物,如籃球運動員姚明、互聯網公司騰訊等;事件是客觀事件的活動,如地震、買賣行為等;關系用于描述概念、實體、事件之間客觀存在的關聯關系,如畢業院校描述了一個人與其學習期間所在學校之間的關聯關系等。知識圖譜中的知識通常用三元組(實體1,關系,實體2)表示,對應知識圖譜網絡結構中的兩個頂點及一條邊,使整個知識圖譜呈現出復雜的網絡結構。這種表示方法給知識圖譜的應用帶來了很多挑戰:①計算效率較低,要利用網絡結構的知識,一般需設計專門的圖算法,圖算法存在計算復雜度高、可擴展性差、運算時效性差等問題;②數據稀疏,大規模知識圖譜遵循長尾分布,處于長尾部分的實體和關系面臨嚴重的數據稀疏問題,涉及的實體和關系的計算往往準確率極低。

隨著深度學習技術的發展,對知識圖譜表示學習的研究也取得了長足的進步。表示學習旨在將知識圖譜中的實體、關系表示為低維稠密向量,可以在低維空間高效計算實體和關系之間的語義聯系,有效解決知識圖譜數據稀疏問題,避免采用傳統的特征工程等方法所帶來的誤差與運算負擔,增強知識圖譜應用的靈活性。

2.3.1 表示學習的基本概念

表示學習所得到的低維向量表示是一種分布式表示(Distributed Representation)。之所以如此命名,是因為孤立地看向量中的每一維都沒有明確的含義。若綜合各維度形成一個向量,則能夠表示對應對象的語義信息。例如,將知識圖譜中實體e和關系r表示為低維向量lelr,在此基礎上,可以通過歐氏距離或余弦距離計算任意兩個對象之間的相似度。

2.3.2 表示學習的典型應用

通過將知識圖譜中的實體或關系投影到低維向量空間,能夠實現對實體和關系的語義信息表示,高效地計算實體、關系及其之間的復雜語義關聯,對知識圖譜的構建、推理與應用有重要意義。

由知識表示學習得到的分布式表示有以下重要應用:

①相似度計算。利用實體的分布式表示,可以快速計算實體之間的語義相似度,對自然語言處理和信息檢索中的很多任務都具有重要意義。

②知識圖譜補全。構建大規模知識圖譜,需要不斷地補充實體之間的關系。利用知識圖譜表示學習模型可以預測兩個實體之間的關系,一般稱其為鏈接預測(Link Prediction),又稱其為知識圖譜補全(Knowledge Graph Completion)。

③其他應用。知識圖譜表示學習已經廣泛應用在關系抽取、自動問答、實體鏈接等任務中,并展現出了巨大的應用潛力。表示學習所得到的低維向量可以應用到很多深度學習模型中。

2.3.3 表示學習的主要優點

知識表示學習實現了實體和關系的分布式表示,主要具備以下優點:

①顯著提升計算效率。傳統的三元組形式的知識圖譜表示方法必須設計專門的圖算法來計算實體之間的語義聯系及關系推理,計算復雜度高、可擴展性差。知識表示學習所得到的分布式表示,能夠高效地實現語義相似度計算等操作,可顯著提升計算效率。

②有效緩解數據稀疏。由于知識表示學習將實體和關系投影到低維向量空間,使得每一個對象對應一個稠密向量,從而有效緩解了數據稀疏的問題,主要體現在兩個方面:第一,每一個對象對應的向量都是稠密且有具體數值的,可以度量任意兩個對象之間的語義相似度;第二,在將大量對象投影到低維空間的過程中,高頻對象的語義信息會對低頻對象的語義信息有所幫助,從而可提升低頻對象表示的準確性。

③實現異質信息融合。不同來源的異質信息需要融合為整體才能得到有效的利用,例如需要計算詞、句子、文檔與知識圖譜中實體、關系之間的關聯。知識表示學習可以將異質信息表示到統一的向量空間,實現異質信息之間的關聯性計算。

2.3.4 表示學習的典型方法

2.3.4.1 距離模型

結構表示(Structured Embedding,SE)是較早的知識表示方法之一。在SE中,每個實體均用d維向量表示,所有的實體都被投影到同一個d維向量空間;SE為每個關系r定義兩個矩陣Mr,1Mr,2Rd×d,用于三元組中頭實體和尾實體的投影操作;SE為每個三元組(hrt)定義損失函數為

img

SE將頭實體向量lh和尾實體向量lt通過關系r的兩個矩陣投影到r的對應空間后,在該空間計算兩個投影向量的距離。這個距離反映了兩個實體在關系r下的語義相關度,距離越小,語義相關度越高。

2.3.4.2 翻譯模型

受詞向量模型的啟發,Bordes等人提出了TransE模型[69],將知識圖譜中的關系看作實體之間的某種平移向量。對于每個三元組(hrt),TransE模型用關系r的向量lr作為頭實體向量lh和尾實體向量lt之間的平移,也可以將lr看作lhlt之間的翻譯。因此,TransE模型也被稱為翻譯模型,即

lh+lrlt

TransE模型如圖2-13所示。對于每個三元組(hrt),TransE模型定義損失函數為

img

圖2-13 TransE模型

img

frht)表示向量lh+lrlt之間的距離L1L2

2.3.4.3 深度神經網絡模型

深度學習技術在知識表示學習中取得了長足的發展。Tim Dettmers提出了ConvE模型[70],使用2維卷積神經網絡提取頭實體向量lh和關系向量lr的特征,并將特征提取之后的結果連接一個多分類網絡,將知識圖譜中三元組之間的關系視作一個全實體空間的多分類問題。ConvE模型如圖2-14所示。

img

圖2-14 ConvE模型

總體來說,知識圖譜表示學習具有重要意義。現有知識圖譜的構建與應用主要依賴于離散符號表示。分布式表示學習為實體與關系語義信息的統一精確表示提供了可行方案。分布式表示學習將極大地推動知識的自動獲取、融合與推理能力,從而實現知識圖譜更加廣泛而深入的應用。

主站蜘蛛池模板: 山阴县| 武夷山市| 娄烦县| 文登市| 博罗县| 石阡县| 鲁山县| 历史| 碌曲县| 富宁县| 福安市| 庆城县| 安岳县| 和龙市| 宜城市| 密云县| 兰州市| 黑河市| 兴文县| 阿巴嘎旗| 禄丰县| 崇礼县| 龙岩市| 全南县| 定远县| 余江县| 榆树市| 教育| 敦煌市| 郧西县| 新兴县| 浦北县| 洛浦县| 江阴市| 泸州市| 大丰市| 黄浦区| 安吉县| 读书| 胶州市| 大兴区|