- 工業(yè)級(jí)知識(shí)圖譜:方法與實(shí)踐
- 張偉 陳華鈞 張亦弛
- 4395字
- 2021-10-15 18:54:48
2.1 知識(shí)表示簡(jiǎn)介
機(jī)器只有掌握大量的知識(shí),特別是常識(shí)知識(shí),才能實(shí)現(xiàn)真正類(lèi)人的智能。知識(shí)表示將現(xiàn)實(shí)世界中的各類(lèi)知識(shí)表達(dá)成計(jì)算機(jī)可存儲(chǔ)和計(jì)算的結(jié)構(gòu)。知識(shí)表示技術(shù)的變化大致可以分為三個(gè)階段:1)基于符號(hào)邏輯進(jìn)行知識(shí)表示和推理,邏輯表示與人類(lèi)的自然語(yǔ)言比較接近,是最早使用的一種知識(shí)表示方法;2)隨著語(yǔ)義網(wǎng)概念的提出,萬(wàn)維網(wǎng)內(nèi)容的知識(shí)表示技術(shù)逐漸興起,當(dāng)前在工業(yè)界大規(guī)模應(yīng)用的多為基于資源描述框架三元組的表示方法;3)隨著自然語(yǔ)言處理領(lǐng)域詞向量(Word Embedding)[1]等向量表示[2](Embedding)技術(shù)手段的出現(xiàn),采用連續(xù)向量方式表示知識(shí)的研究正在逐漸興起,與符號(hào)邏輯為基礎(chǔ)知識(shí)表示方法相融合,成為現(xiàn)階段知識(shí)表示的研究熱點(diǎn)[1]。
2.1.1 基于符號(hào)邏輯的知識(shí)表示方法
1.一階謂詞邏輯
一階謂詞邏輯(First Order Logic)是以數(shù)理邏輯為基礎(chǔ),通過(guò)命題、邏輯聯(lián)結(jié)詞、謂詞與量詞等組成的知識(shí)表示,形式上接近于自然語(yǔ)言且方便存儲(chǔ)在計(jì)算機(jī)中,是一種最早應(yīng)用于人工智能的表示方法。
一階謂詞邏輯在命題邏輯上引入了量詞和謂詞的概念。更具體地,基本語(yǔ)法元素是表示對(duì)象、關(guān)系和函數(shù)的符號(hào),其中對(duì)象對(duì)應(yīng)常量符號(hào)、關(guān)系對(duì)應(yīng)謂詞符號(hào)、函數(shù)對(duì)應(yīng)函數(shù)符號(hào)。表2-1給出了一階謂詞邏輯符號(hào)集。
表2-1 一階謂詞邏輯符號(hào)集

一階謂詞邏輯可以表示精確的知識(shí)、有嚴(yán)格的形式定義和推理規(guī)則,但是它無(wú)法表示不確定性知識(shí),同時(shí)效率也較低,推理的復(fù)雜度較高。隨著不斷的演變,產(chǎn)生式系統(tǒng)對(duì)以上缺點(diǎn)做了優(yōu)化和補(bǔ)充。
2.語(yǔ)義網(wǎng)絡(luò)
語(yǔ)義網(wǎng)絡(luò)(Semantic Network)是Quillan M Ross在1966年提出的表達(dá)人類(lèi)知識(shí)的模型[2]。語(yǔ)義網(wǎng)絡(luò)是用于表示互連節(jié)點(diǎn)和弧段模式中知識(shí)的一種有向圖結(jié)構(gòu),是一種有向圖。每一個(gè)節(jié)點(diǎn)和弧段必須有標(biāo)志,頂點(diǎn)代表概念,而邊則表示這些概念之間的語(yǔ)義關(guān)系。在語(yǔ)義網(wǎng)絡(luò)表示中,最基本的語(yǔ)義單元叫作語(yǔ)義基元,可以用三元組(Triple)表示<節(jié)點(diǎn)1,關(guān)系,節(jié)點(diǎn)2>。一個(gè)語(yǔ)義基元對(duì)應(yīng)的部分網(wǎng)絡(luò)結(jié)構(gòu)是基本網(wǎng)元。因此,三元組<節(jié)點(diǎn)1,關(guān)系,節(jié)點(diǎn)2>的結(jié)構(gòu)可以用一個(gè)基本網(wǎng)元表示,圖2-1給出了一個(gè)基本網(wǎng)元示例。

圖2-1 一個(gè)基本網(wǎng)元示例
當(dāng)把多個(gè)語(yǔ)義基元用相應(yīng)的語(yǔ)義聯(lián)系關(guān)聯(lián)到一起時(shí),就形成了語(yǔ)義網(wǎng)絡(luò)。語(yǔ)義網(wǎng)絡(luò)中弧的方向是有意義的,不能隨意調(diào)換。語(yǔ)義網(wǎng)絡(luò)表示和謂詞邏輯表示有對(duì)應(yīng)的表示能力。從邏輯上看,一個(gè)基本網(wǎng)元相當(dāng)于一組二元謂詞。三元組<節(jié)點(diǎn)1,關(guān)系,節(jié)點(diǎn)2>可用謂詞邏輯表示為P(節(jié)點(diǎn)1,節(jié)點(diǎn)2),其中弧的功能由謂詞完成。
3.描述邏輯
描述邏輯(Description Logics)[4]是一階謂詞邏輯的一個(gè)可判定的子集,能夠提供可判定的推理服務(wù),并且具有語(yǔ)義特征。它被認(rèn)為是以對(duì)象為中心的表示語(yǔ)言的最重要的歸一形式。本質(zhì)上,描述邏輯是一種基于對(duì)象的知識(shí)表示的形式化,其建立在概念和關(guān)系上,概念是對(duì)象的共同屬性集合。
一個(gè)描述邏輯系統(tǒng)包含四個(gè)部分:1)表示概念和關(guān)系的構(gòu)造集;2)TBox(Terminology Box)定義了知識(shí)領(lǐng)域的結(jié)構(gòu)的一系列公理集,可以通過(guò)已有概念構(gòu)成新的概念;3)ABox(Assertional Box)是有關(guān)對(duì)象實(shí)例斷言的集合,斷言一個(gè)對(duì)象是某個(gè)概念的實(shí)例,或者兩個(gè)對(duì)象之間存在某種關(guān)系;4)在TBox和ABox上的推理機(jī)制。描述邏輯因表示能力、可解釋性和可判定性較好而廣受關(guān)注,但它也存在推理復(fù)雜度高、構(gòu)建難度大、適用領(lǐng)域窄等問(wèn)題。
4.框架系統(tǒng)
框架系統(tǒng)(Frame System)是由著名人工智能學(xué)者M(jìn)insky于1975年提出來(lái)的知識(shí)表示方法[3]。其理論基礎(chǔ)是人腦存儲(chǔ)了大量情景,當(dāng)面對(duì)新的情景時(shí),會(huì)從記憶中找出類(lèi)似于框架的結(jié)構(gòu)性知識(shí),并根據(jù)實(shí)際的情景對(duì)框架中的具體值進(jìn)行填充,對(duì)細(xì)節(jié)加工修改和補(bǔ)充。框架一般由框架名、槽名、側(cè)面名和側(cè)面值組成。框架由描述事物的各方面的槽組成,在槽中填入具體值,就可以得到一個(gè)描述具體事務(wù)的框架,每一個(gè)槽都可以有一些附加說(shuō)明被稱(chēng)為側(cè)面,其作用是指出槽的取值范圍和求值方法等。圖2-2給出了框架的一般結(jié)構(gòu)。

圖2-2 框架的一般結(jié)構(gòu)
框架表示法適用于表達(dá)結(jié)構(gòu)性知識(shí),也能用來(lái)表示行為(動(dòng)作),將相關(guān)框架連接在一起,形成了框架網(wǎng)絡(luò),即可表示一個(gè)框架到另一個(gè)框架的轉(zhuǎn)換、變化和推理等行為。不同的框架也可以共享同一個(gè)槽值,這種方法可以把從不同角度收集的信息較好地協(xié)調(diào)起來(lái)。
2.1.2 面向互聯(lián)網(wǎng)的知識(shí)表示方法
和之前提到的語(yǔ)義網(wǎng)絡(luò)的概念有所不同,語(yǔ)義網(wǎng)(Semantic Web)是萬(wàn)維網(wǎng)聯(lián)盟(W3C)的Tim Berners-Lee在1998年提出的一個(gè)概念,其最初的目的是對(duì)萬(wàn)維網(wǎng)功能進(jìn)行拓展以提高其智能程度,因此也稱(chēng)為Web 3.0。早期Web的標(biāo)準(zhǔn)語(yǔ)言HTML和XML無(wú)法適應(yīng)語(yǔ)義網(wǎng)對(duì)知識(shí)表示的要求,所以W3C提出了新的標(biāo)準(zhǔn)語(yǔ)言RDF、RDFS和OWL,來(lái)表示語(yǔ)義網(wǎng)的知識(shí)體系[5]。
1.RDF
資源描述框架(Resource Description Framework,RDF)是一種用于描述Web資源的標(biāo)記語(yǔ)言,一般采用三元組表示。
1)Resource:頁(yè)面、圖片和視頻等任何具有URI標(biāo)識(shí)符的資源;
2)Description:屬性、特征和資源之間的關(guān)系;
3)Framework:模型、語(yǔ)言和這些描述的語(yǔ)法。
RDF是一個(gè)三元組模型,即每一份知識(shí)可以被分解為如下形式:RDF可以用多種形式或語(yǔ)言表示,可以是XML的形式,也可以用Turtle或N-Triples的形式表示。
2.RDFS
RDFS在RDF的基礎(chǔ)上提供了一個(gè)術(shù)語(yǔ)、概念等的定義方式,以及哪些屬性可以應(yīng)用到哪些對(duì)象上。換言之,RDFS為RDF模型提供了一個(gè)基本的類(lèi)型系統(tǒng)。RDFS盡管能表達(dá)更豐富的語(yǔ)義,但是它也有一些缺陷。例如,它在以下兩個(gè)方面表達(dá)不完整:基數(shù)約束,即對(duì)某屬性值可能或必須的取值范圍進(jìn)行約束的場(chǎng)景,如說(shuō)明一個(gè)人有雙親(包括兩個(gè)人),一門(mén)課至少有一位教師;屬性特性描述,即聲明屬性的某些特性,如傳遞性、函數(shù)性和對(duì)稱(chēng)性,以及聲明一個(gè)屬性是另一個(gè)屬性的逆屬性等。由于RDFS有以上缺陷,W3C在2002年7月提出了OWL本體語(yǔ)言(OWL Web Ontology Language)以拓展RDF(S),作為在語(yǔ)義網(wǎng)上表示本體的推薦語(yǔ)言,其目的是更好地開(kāi)發(fā)語(yǔ)義網(wǎng)。
3.OWL
OWL(Web Ontolog Language)是建立在RDF和RDFS基礎(chǔ)上的,不僅有類(lèi)和實(shí)例的詞匯表示,還增加了更多關(guān)系的表示。OWL引入了布爾算子(并、或、補(bǔ)),遞歸地構(gòu)建復(fù)雜的類(lèi),還提供了表示存在值約束、任意值約束和數(shù)量值約束等能力。同時(shí),OWL能提供描述屬性具有傳遞性、對(duì)稱(chēng)性和函數(shù)性等性質(zhì)。還有兩個(gè)類(lèi)等價(jià)或者不相交,兩個(gè)屬性等價(jià)或者互逆,兩個(gè)實(shí)例相同或者不同,以及枚舉類(lèi)等。OWL提供了三種表達(dá)能力遞增的子語(yǔ)言,以分別用于特定的實(shí)現(xiàn)者和用戶(hù)團(tuán)體。表2-2給出了三種子語(yǔ)言的特征和使用限制舉例[5]。OWL的子語(yǔ)言與RDF有如下關(guān)系:首先,OWL Full可以看成是RDF的拓展;其次,OWL Lite和OWL Full可以看成是一個(gè)約束化的RDF拓展;再次,所有的OWL文檔(Lite、DL、Full)都是一個(gè)RDF文檔,所有的RDF文檔都是一個(gè)OWL Full文檔;最后,只有一些RDF文檔是一個(gè)合法的OWL Lite和OWL DL文檔。
表2-2 OWL子語(yǔ)言的特征和使用限制舉例[5]

2.1.3 基于連續(xù)向量的知識(shí)表示
前面提到的表示方式以符號(hào)邏輯為基礎(chǔ),通常是三元組的方式組織,但這種符號(hào)并不能在計(jì)算機(jī)中表達(dá)自然語(yǔ)言中的語(yǔ)義信息,不能進(jìn)行語(yǔ)義計(jì)算。因此,本節(jié)要描述的方法是將圖譜中的實(shí)體關(guān)系映射到低維連續(xù)的向量空間,采用連續(xù)向量方式表示知識(shí)。向量表示技術(shù)大致分為兩類(lèi):平移距離模型和語(yǔ)義匹配模型。前者使用基于距離的評(píng)分函數(shù),后者使用基于相似度的評(píng)分函數(shù)。在此基礎(chǔ)上,我們對(duì)這些向量表示技術(shù)的效率和有效性進(jìn)行了比較[6]。
1.基于距離平移模型的知識(shí)向量表示
平移距離模型主要是將衡量向量化后的知識(shí)圖譜中的三元組的合理性問(wèn)題,轉(zhuǎn)化成衡量頭實(shí)體和尾實(shí)體的距離問(wèn)題,利用了基于距離的評(píng)分函數(shù),通過(guò)兩個(gè)實(shí)體之間的距離對(duì)事實(shí)的合理性進(jìn)行度量。
Bordes等人便是受到詞向量空間對(duì)于詞匯語(yǔ)義與句法關(guān)系存在有趣的平移不變現(xiàn)象的啟發(fā),提出了TransE模型[7],這一模型將知識(shí)庫(kù)中的關(guān)系看作實(shí)體間的某種平移向量,在大規(guī)模知識(shí)圖譜上效果明顯。例如,如果在一個(gè)知識(shí)圖譜中,某一個(gè)三元組(head,relation,tail)成立,則它的實(shí)體和關(guān)系需要滿(mǎn)足關(guān)系head+relation ≈tail。不過(guò)TransE模型比較簡(jiǎn)單,很難處理知識(shí)庫(kù)的復(fù)雜關(guān)系,因此為了突破TransE模型在處理1-N、N-1、N-N復(fù)雜關(guān)系時(shí)的局限性,研究學(xué)者相繼提出了讓一個(gè)實(shí)體在不同關(guān)系下?lián)碛胁煌硎尽⒄J(rèn)為不同關(guān)系擁有不同語(yǔ)義空間的TransH模型和TransR模型,以及針對(duì)這兩種模型中矩陣參數(shù)過(guò)多的問(wèn)題再次改進(jìn)優(yōu)化的TransD模型和TranSparse模型。除此之外,研究學(xué)者還提出了利用高斯分布表示知識(shí)庫(kù)中的實(shí)體和關(guān)系,可以在表示過(guò)程中考慮實(shí)體和關(guān)系本身語(yǔ)義上不確定性的TransG模型和KG2E模型。
2.基于語(yǔ)義匹配模型知識(shí)向量表示
語(yǔ)義匹配模型是利用基于相似性的評(píng)分函數(shù),它們通過(guò)匹配實(shí)體的潛在語(yǔ)義和向量空間表示中包含的關(guān)系度量事實(shí)的可信性。該方向的模型主要是REACAL以及它的延展模型。
RESCAL模型(又稱(chēng)雙線性模型)通過(guò)使用一個(gè)向量表示每個(gè)實(shí)體來(lái)獲得它的潛在語(yǔ)義。每個(gè)關(guān)系都表示為一個(gè)矩陣,該矩陣對(duì)潛在因素之間的成對(duì)交互作用進(jìn)行了建模。它把事實(shí)(h,r,t)評(píng)分函數(shù)定義為一個(gè)雙線性函數(shù),其中h、t表示頭實(shí)體和尾實(shí)體,Mr表示關(guān)系矩陣。
DistMult模型通過(guò)將Mr限制為對(duì)角矩陣來(lái)簡(jiǎn)化RESCAL。對(duì)于每一個(gè)關(guān)系r,它都引入一個(gè)向量表示r,并要求Mr=diag(r)。評(píng)分函數(shù)只捕獲沿同一維度的h和t分量之間的成對(duì)交互作用,并將每一個(gè)關(guān)系的參數(shù)數(shù)量減少至O(d)。然而,因?yàn)閷?duì)于任意的h和t,hTdiag(r)t=tTdiag(r)h都是成立的,這種過(guò)度簡(jiǎn)化的模型只能處理對(duì)稱(chēng)的關(guān)系,顯然對(duì)于一般的圖譜是不能完全適用的。因此,研究人員又分別提出ComplEx等模型,增加模型處理更加豐富的語(yǔ)義關(guān)系的能力。
3.基于附加信息建模的知識(shí)向量表示
以上兩種模型只是用了知識(shí)圖譜的事實(shí)信息來(lái)建模,其實(shí)還有很多附加信息進(jìn)一步改進(jìn)任務(wù),例如實(shí)體類(lèi)型、關(guān)系路徑、文本描述和邏輯規(guī)則。
(1)實(shí)體類(lèi)型附加信息。首先考慮的第一類(lèi)附加信息是實(shí)體類(lèi)型,即實(shí)體所屬的語(yǔ)義類(lèi)別。GUO等人[8]提出了語(yǔ)義平滑向量表示(SSE)模型,它要求相同類(lèi)型的實(shí)體在向量表示空間中彼此鄰近,例如,Psycho應(yīng)該更接近Avatar而不是JamesCameron。SSE采用兩種流形學(xué)習(xí)算法,即拉普拉斯特征映射和局部線性向量表示對(duì)這種光滑性假設(shè)進(jìn)行建模。
(2)關(guān)系路徑附加信息。第二類(lèi)附加信息是關(guān)聯(lián)路徑,即實(shí)體之間的多跳關(guān)系。關(guān)系路徑通常被定義為一個(gè)關(guān)聯(lián)序列r_1,r_2,…,r_l,兩個(gè)實(shí)體通過(guò)該序列可以在圖上連接。例如,BornIn→LocatedIn是一條通過(guò)中間節(jié)點(diǎn)Leytonstone連接AlfredHitchcock到England的路徑。關(guān)聯(lián)路徑包含豐富的語(yǔ)義線索,對(duì)于圖譜補(bǔ)全非常有用,例如BornIn→LocatedIn表明AlfredHitchcock與England之間的國(guó)籍關(guān)系。
關(guān)聯(lián)路徑長(zhǎng)期以來(lái)一直對(duì)多關(guān)系中數(shù)據(jù)進(jìn)行研究。例如,路徑排序算法直接使用連接兩個(gè)實(shí)體的路徑作為特征預(yù)測(cè)它們之間可能的關(guān)聯(lián)。最近,它們已將其集成到知識(shí)圖譜向量表示中。然而,主要的挑戰(zhàn)是如何在與實(shí)體和關(guān)系相同的向量空間中表示這樣的路徑。一個(gè)簡(jiǎn)單的解決方案是將路徑表示為關(guān)系表示的一部分,因?yàn)槁窂降恼Z(yǔ)義取決于所有這些關(guān)系。
(3)文本描述附加信息。實(shí)際上,在大多數(shù)的圖譜中,包含豐富語(yǔ)義信息的實(shí)體有簡(jiǎn)明的描述。如圖2-3所示,顯示了在FreeBase中對(duì)AlfredHitchcock和Psycho的描述信息。此外,實(shí)體描述除了存儲(chǔ)在圖譜,還可以擴(kuò)展到結(jié)合更多的一般文本信息,如發(fā)布的新聞和維基百科文章。
(4)邏輯規(guī)則附加信息。最后是結(jié)合邏輯規(guī)則,特別是那些用一階Hron條款來(lái)表示的規(guī)則,例如,由關(guān)系HasWife連接的任何兩個(gè)實(shí)體也應(yīng)該由關(guān)系HasSpouse連接。這種邏輯規(guī)則包含豐富的背景信息,在知識(shí)獲取和推理中得到了廣泛的研究,通常基于馬爾可夫邏輯網(wǎng)絡(luò)。還有一些系統(tǒng),如WARMR、Aleph和Amie,可以從圖譜中自動(dòng)提取邏輯規(guī)則。

圖2-3 實(shí)體描述示例
- 智能控制與強(qiáng)化學(xué)習(xí):先進(jìn)值迭代評(píng)判設(shè)計(jì)
- 聯(lián)邦學(xué)習(xí)實(shí)戰(zhàn)
- 智能化社會(huì):未來(lái)人們?nèi)绾紊睢⑾鄲?ài)和思考
- 人工的你:人工智能與心智的未來(lái)
- 深度學(xué)習(xí)
- 巧用ChatGPT快速提高職場(chǎng)晉升力
- 體感交互技術(shù)
- 人工智能導(dǎo)論
- 人形機(jī)器人(原書(shū)第2版)
- 人形機(jī)器人:產(chǎn)業(yè)變革、商業(yè)機(jī)遇與未來(lái)趨勢(shì)
- 知識(shí)圖譜實(shí)戰(zhàn):構(gòu)建方法與行業(yè)應(yīng)用
- 新機(jī)器智能
- Web3超入門(mén)
- 巧用ChatGPT輕松玩轉(zhuǎn)新媒體運(yùn)營(yíng)
- Python機(jī)器學(xué)習(xí)入門(mén)與實(shí)戰(zhàn)