官术网_书友最值得收藏!

2.4 常見開放域知識(shí)圖譜的知識(shí)表示方法

不同的知識(shí)圖譜項(xiàng)目都會(huì)根據(jù)實(shí)際的需要選擇不同的知識(shí)表示框架。這些框架有不同的描述術(shù)語、表達(dá)能力、數(shù)據(jù)格式等方面的考慮,但本質(zhì)上有相似之處。這里以三個(gè)最典型的開放域知識(shí)圖譜(Freebase、Wikidata、ConceptNet)為例,嘗試比較不同的知識(shí)圖譜項(xiàng)目選用的知識(shí)表示框架,并總結(jié)影響知識(shí)表示框架選擇的主要因素。為便于比較分析,以RDF、OWL的描述術(shù)語和表達(dá)能力為主要比較對(duì)象。

2.4.1 Freebase

Freebase的知識(shí)表示框架主要包含如下幾個(gè)要素:對(duì)象-Object、事實(shí)-Facts、類型-Types和屬性-Properties。“Object”代表實(shí)體。每一個(gè)“Object”有唯一的ID,稱為MID (Machine ID)。一個(gè)“Object”可以有一個(gè)或多個(gè)“Types”。“Properties”用來描述“Facts”。例如,“Barack Obama”是一個(gè)Object,并擁有一個(gè)唯一的MID:“/m/02mjmr”。這個(gè)Object的一個(gè)type是“/government/us_president”,并有一個(gè)稱為“/government/us_president/presidency_number”的Property,其數(shù)值是“44”。Freebase使用復(fù)合值類型(Compound Value Types,CVT)處理多元關(guān)系。

如圖2-16所示,示例的CVT描述了關(guān)于Obama的任職期限的多元關(guān)系“government_position_held”。這個(gè)多元關(guān)系包含多個(gè)子二元關(guān)系:“office_holder”“office_position”“from”“to”等。一個(gè)CVT就是有唯一MID的Object,也可以有多個(gè)Types。為了以示區(qū)別,F(xiàn)reebase把所有非CVT的Object也稱為“Topic”。

圖2-16 Freebase的知識(shí)表示結(jié)構(gòu)示例

2.4.2 Wikidata

Wikidata的知識(shí)表示框架主要包含如下要素:頁面-Pages、實(shí)體-Entities、條目-Items、屬性-Properties、陳述-Statements、修飾-Qualifiers、引用-Reference等。Wikidata起源于Wikipedia,因此與Wikipedia一樣,以頁面“Page”為基本的組織單元。Entities類似于OWL:Things,代指最頂層的對(duì)象。每一個(gè)Entity都有一個(gè)獨(dú)立的維基頁面。Entities主要有兩類:Items和Properties。Items類似于RDF中的Instance,代指實(shí)例對(duì)象。Properties和Statements分別等價(jià)于RDF中的Property和Statement。通常一個(gè)Item的頁面還包含多個(gè)別名-aliases和多個(gè)指向Wikipedia的外部鏈接-Sitelinks。

每個(gè)Entities有多個(gè)Statements。一個(gè)Statement包含一個(gè)Property、一個(gè)或多個(gè)Values、一個(gè)或多個(gè)Qualifiers、一個(gè)或多個(gè)References、一個(gè)標(biāo)識(shí)重要性程度的Rank。

修飾-Qualifiers用于處理復(fù)雜的多元表示。如一個(gè)陳述“spouse: Jane Belson”描述了一個(gè)二元關(guān)系。可以使用Qualifiers給這個(gè)陳述增加多個(gè)附加信息來刻畫多元關(guān)系,如“start date: 25 November 1991” and “end date: 11 May 2011”等。

引用-References用于標(biāo)識(shí)每個(gè)陳述的來源或出處,如來源于某個(gè)維基百科頁面等。引用也是一種Qualifiers,通常添加到Statements的附加信息中。

Wikidata支持多種數(shù)值類型,包括其自有的Item類型、RDF Literal、URL、媒體類型Commons Media,以及Time、Globe coordinates和Quantity三種復(fù)雜類型。

Wikidata允許給每個(gè)Statement增加三種權(quán)重:normal(缺省)、preferred和deprecated。

Wikidata定義了三種Snacks作為Statement的具體描述結(jié)構(gòu):PropertyValueSnack、PropertyNoValueSnack、PropertySomeValueSnack。PropertyNoValueSnack類似于OWL中的Negation,表示類似于“Elizabeth I of England had no spouse”的知識(shí)。PropertySomeValueSnack類似于OWL中的存在量詞someValuesFrom,表示類似于“Pope Linus had a date of birth, but it is unknown to us”這樣的知識(shí)。

Wikidata的URI機(jī)制遵循了Linked Open Data的URI原則,采用統(tǒng)一的URI機(jī)制:http://www.wikidata.org/entity/<id>。其中,<id>可以是一個(gè)Item,如Q49,或者一個(gè)Property,如P234。

2.4.3 ConceptNet5

ConceptNet5的知識(shí)表示框架主要包含如下要素:概念-Concepts、詞-Words、短語-Phrases、斷言-Assertions、關(guān)系-Relations、邊-Edges。Concepts由Words或Phrases組成,構(gòu)成了圖譜中的節(jié)點(diǎn)。與其他知識(shí)圖譜的節(jié)點(diǎn)不同,這些Concepts通常是從自然語言文本中提取出來的,更接近自然語言描述,而不是形式化的命名。Assertions描述了Concepts之間的關(guān)系,類似于RDF中的Statements。Edges類似于RDF中的Property。一個(gè)Concepts包含多條邊,而一條邊可能有多個(gè)產(chǎn)生來源。例如,一個(gè)“化妝Cause漂亮”的斷言可能來源于文本抽取,也可能來源于用戶的手工輸入。來源越多,該斷言就越可靠。ConceptNet5根據(jù)來源的多少和可靠程度計(jì)算每個(gè)斷言的置信度。ConceptNet5示例如圖2-17所示。

圖2-17 ConceptNet5示例

ConceptNet5中的關(guān)系包含21個(gè)預(yù)定義的、多語言通用的關(guān)系,如IsA、UsedFor等,以及從自然語言文本中抽取的更加接近自然語言描述的非形式化的關(guān)系,如on top of,caused by等。

ConceptNet5對(duì)URI進(jìn)行了精心的設(shè)計(jì)。URI同時(shí)考慮了類型(如是概念還是關(guān)系)、語言、正則化后的概念名稱、詞性、歧義等因素。例如“run”是一個(gè)動(dòng)詞,但也可能是一個(gè)名詞(如basement比賽中一個(gè)“run”),其URI為:“/c/en/run/n/basement”。其中,n代指這是一個(gè)名詞,basement用于區(qū)分歧義。

在處理表示“x is the first argument of y”這類多元關(guān)系的問題上,ConceptNet5把所有關(guān)于某條邊的附加信息增加為邊的屬性,如圖2-18所示。

圖2-18 ConceptNet5的知識(shí)表示結(jié)構(gòu)

主站蜘蛛池模板: 喜德县| 台前县| 龙里县| 吕梁市| 若羌县| 监利县| 手游| 光山县| 涿鹿县| 滨海县| 蕉岭县| 台北市| 赣榆县| 滕州市| 治县。| 蓬安县| 沅江市| 内江市| 平果县| 武安市| 清苑县| 石棉县| 仁化县| 横峰县| 辽宁省| 马边| 林芝县| 江口县| 溆浦县| 石景山区| 扬中市| 玉山县| 新源县| 耒阳市| 桃园市| 化州市| 博乐市| 象山县| 清水河县| 边坝县| 嵊泗县|