- 知識圖譜:方法、實踐與應(yīng)用
- 王昊奮 漆桂林等
- 1680字
- 2020-04-03 12:54:49
2.1 什么是知識表示
20世紀90年代,MIT AI實驗室的R.Davis定義了知識表示的五大用途或特點:
●客觀事物的機器標(biāo)示(A KR is a Surrogate),即知識表示首先需要定義客觀實體的機器指代或指稱。
●一組本體約定和概念模型(A KR is a Set of Ontological Commitments),即知識表示還需要定義用于描述客觀事物的概念和類別體系。
●支持推理的表示基礎(chǔ)(A KR is a Theory of Intelligent Reasoning),即知識表示還需要提供機器推理的模型與方法。
●用于高效計算的數(shù)據(jù)結(jié)構(gòu)(A KR is a medium for Efficient Computation),即知識表示也是一種用于高效計算的數(shù)據(jù)結(jié)構(gòu)。
●人可理解的機器語言(A KR is a Medium of Human Expression),即知識表示還必須接近于人的認知,是人可理解的機器語言。
有關(guān)知識表示的研究可以追溯到人工智能的早期研究。例如,認知科學(xué)家M.Ross Quillian和Allan M.Collins提出了語義網(wǎng)絡(luò)的知識表示方法[2],以網(wǎng)絡(luò)的方式描述概念之間的語義關(guān)系。典型的語義網(wǎng)絡(luò)如WordNet屬于詞典類的知識庫,主要定義名詞、動詞、形容詞和副詞之間的語義關(guān)系。20世紀70年代,隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展,知識庫構(gòu)建和知識表示更加得到重視。傳統(tǒng)的專家系統(tǒng)通常包含知識庫和推理引擎(Inference Engine)兩個核心模塊。
無論是語義網(wǎng)絡(luò),還是框架語言和產(chǎn)生式規(guī)則,都缺少嚴格的語義理論模型和形式化的語義定義。為了解決這一問題,人們開始研究具有較好的理論模型基礎(chǔ)和算法復(fù)雜度的知識表示框架。比較有代表性的是描述邏輯語言(Description Logic)[4]。描述邏輯是目前大多數(shù)本體語言(如OWL)的理論基礎(chǔ)。第一個描述邏輯語言是1985年由Ronald J.Brachman等提出的KL-ONE[5]。描述邏輯主要用于刻畫概念(Concepts)、屬性(Roles)、個體(Individual)、關(guān)系(Relationships)、元語(Axioms,即邏輯描述Logic Statement)等知識表達要素。與傳統(tǒng)專家系統(tǒng)的知識表示語言不同,描述邏輯家族更關(guān)心知識表示能力和推理計算復(fù)雜性之間的關(guān)系,并深入研究了各種表達構(gòu)件的組合帶來的查詢、分類、一致性檢測等推理計算的計算復(fù)雜度問題。
語義網(wǎng)的基礎(chǔ)數(shù)據(jù)模型RDF受到了元數(shù)據(jù)模型、框架系統(tǒng)和面向?qū)ο笳Z言等多方面的影響,其最初是為人們在Web上發(fā)布結(jié)構(gòu)化數(shù)據(jù)提供一個標(biāo)準的數(shù)據(jù)描述框架。與此同時,語義網(wǎng)進一步吸收描述邏輯的研究成果,發(fā)展出了用OWL系列標(biāo)準化本體語言?,F(xiàn)代知識圖譜如DBpedia、Yago、Freebase、Schema.ORG、Wikidata等大多以語義網(wǎng)的表達模型為基礎(chǔ)進行擴展或刪減。
無論是早期專家系統(tǒng)時代的知識表示方法,還是語義網(wǎng)時代的知識表示模型,都屬于以符號邏輯為基礎(chǔ)的知識表示方法。符號知識表示的特點是易于刻畫顯式、離散的知識,因而具有內(nèi)生的可解釋性。但由于人類知識還包含大量不易于符號化的隱性知識,完全基于符號邏輯的知識表示通常由于知識的不完備而失去魯棒性,特別是推理很難達到實用。由此催生了采用連續(xù)向量的方式來表示知識的研究。
基于向量的方式表示知識的研究由來已有。隨著表示學(xué)習(xí)的發(fā)展,以及自然語言處理領(lǐng)域詞向量等嵌入(Embedding)技術(shù)手段的出現(xiàn),啟發(fā)了人們用類似于詞向量的低維稠密向量的方式表示知識。通過嵌入將知識圖譜中的實體和關(guān)系投射到一個低維的連續(xù)向量空間,可以為每一個實體和關(guān)系學(xué)習(xí)出一個低維度的向量表示。這種基于連續(xù)向量的知識表示可以實現(xiàn)通過數(shù)值運算來發(fā)現(xiàn)新事實和新關(guān)系,并能更有效發(fā)現(xiàn)更多的隱式知識和潛在假設(shè),這些隱式知識通常是人的主觀不易于觀察和總結(jié)出來的。更為重要的是,知識圖譜嵌入也通常作為一種類型的先驗知識輔助輸入很多深度神經(jīng)網(wǎng)絡(luò)模型中,用來約束和監(jiān)督神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。如圖2-1所示為基于離散符號的知識表示與基于連續(xù)向量的知識表示對比。

圖2-1 基于離散符號的知識表示與基于連續(xù)向量的知識表示對比
綜上所述,與傳統(tǒng)人工智能相比,知識圖譜時代的知識表示方法已經(jīng)發(fā)生了很大的變化。一方面,現(xiàn)代知識圖譜受到規(guī)?;瘮U展的影響,通常采用以三元組為基礎(chǔ)的較為簡單實用的知識表示方法,并弱化了對強邏輯表示的要求;另一方面,由于知識圖譜是很多搜索、問答和大數(shù)據(jù)分析系統(tǒng)的重要數(shù)據(jù)基礎(chǔ),基于向量的知識圖譜表示使得這些數(shù)據(jù)更易于和深度學(xué)習(xí)模型集成,使得基于向量的知識圖譜表示越來越受到重視。
由于知識表示涉及大量傳統(tǒng)人工智能的內(nèi)容,并有其明確、嚴格的內(nèi)涵及外延定義,為避免混淆,在本書中主要側(cè)重于知識圖譜的表示方法的介紹,因此用“知識表示”和“知識圖譜的表示方法”加以了區(qū)分。