- 知識圖譜:認知智能理論與實戰
- 王文廣
- 2312字
- 2024-01-25 17:32:15
1.2 什么是知識圖譜
前面絮絮叨叨了好些零零碎碎的文字,意在激活我們大腦對不同知識之間的聯想。知識之間的關聯無處不在。古今中外、人文科技、兒女情長、家國大事、現實幻想、奇聞趣事,可謂一切知識之間皆有關聯。有些關聯乍一看思維跳躍、沒有章法,但稍加思索,就會發現其中自有邏輯所在。
知識圖譜就是一種對知識間的關聯進行建模的方法,目的是將這些關聯關系的邏輯顯式地表示出來。將上文所提到的知識用網狀圖(Graph)的方式組織成圖1-1的形式,就形成了一個知識圖譜。也就是說,知識圖譜是知識的一種表示形式——一種由知識點及其之間的關聯關系組成的網狀圖。
早在知識圖譜出現以前,有識之士就在深入研究人類大腦中知識間的關聯關系了。認知科學和腦科學研究的最近成果表明,人類思維活動的機制就是聯想,聯想的核心則是知識間的聯系。哲學家大衛·休謨把人們對知識、觀念或知覺之間的聯系歸結為三類,分別是相似關系(Resemblance)、時空的接近關系(Contiguity in time or place)和因果關系(Cause or Effect)。
以圖1-1為例,李白的《靜夜思》引導人們自然而然地想到月亮(月球),進而想到蘇軾的《水調歌頭·明月幾時有》。在大衛·休謨的理論中,這個過程被認為是相似關系的體現。由蘇堤到蘇堤盡頭的雷峰塔的聯想過程,則被認為是時空的接近關系。采用因果關系的例子有“長征五號”運載火箭因為具備強大推力,所以能夠逃脫地球引力的束縛;因為“嫦娥五號”在“長征五號”的運送下逃脫地球引力,所以“嫦娥五號”能夠到達月球,并進行月球探測。不過,大衛·休謨在他的著作《人類理解研究》中認為,很難證明是否只有這3種根本性的關聯關系,而這正是哲學、腦科學、神經科學、認知科學、心理學等諸多學科致力于解決的問題。
在偏于實踐應用的知識圖譜領域,并不過多深究知識間根本性的關聯關系。相反,知識圖譜容許或需要更加多元、多樣、多維的關聯關系。在實踐中,通常根據場景、業務或應用的需要進行總結梳理。下面以前文和圖1-1為例做簡單說明,通常來說,書籍作品與人物之間的關聯關系有如下兩種。
●“<作品,談及,人物>”:表達了書籍作品包含了描繪該人物有關的內容。
●“<人物,寫,作品>”:表達了該書籍作品是由該人物撰寫的。
這在圖1-1中都有體現,比如“<水調歌頭·明月幾時有,談及,蘇轍>”和“<王文廣,寫,知識圖譜>”等。此外,根據場景的需要對知識進行梳理和總結,會導致知識圖譜在不同情況下存在差異。領域不同、背景不同、目標不同、應用方向不同,梳理總結的結果都會有所不同。這種差異很難避免,第2章將會詳細探討這類問題,并提出相應的方法論和工程模型等途徑,盡可能化解困難、減少分歧、擴大共識。
上例中提到的“<水調歌頭·明月幾時有,談及,蘇轍>”和“<王文廣,寫,知識圖譜>”被稱為三元組。三元組正是知識圖譜的基本元素。從上述例子可知,三元組表達的是兩個知識點之間的關系,因此也常被稱為關系三元組。
三元組由三個部分組成,分別為實體、關系、實體,即“<實體,關系,實體>”。有時為了區分兩個實體,基于其位置,分別將它們稱為頭實體和尾實體,即“<頭實體,關系,尾實體>”。也就是說,“水調歌頭·明月幾時有”和“蘇轍”都是實體,“水調歌頭·明月幾時有”是頭實體,“蘇轍”是尾實體。
進一步的,知識圖譜事先梳理總結的知識類型,比如“<作品,談及,人物>”等,通常被稱為關系類型,其組成部分中的“作品”和“人物”被稱為實體類型,“談及”是關系名稱。在圖1-1 中,知識圖譜就是由無數三元組組成的巨大的圖。圖的頂點表示實體,也就是一個個的知識點。圖的邊表示了實體間的關系,也就是知識點與知識點的關聯關系。

圖1-1 知識圖譜示例
刻畫一個知識點,不能僅僅用幾個字來表示,而要從不同的維度來描繪。比如人物,除有姓名之外,還有出生年月、身份證號碼等。在知識圖譜中,這些不同維度的描述信息被表示為實體屬性。實體屬性的表現形式是鍵值對,即“<屬性名,屬性值>”。比如實體“蘇軾”,其屬性有“<生日,1037年1月8日>”和“<性別,男>”等。依附于關系三元組上的一系列鍵值對就是關系屬性。關系屬性能夠讓我們從不同的視角來看待關聯關系。比如關系三元組“<蘇軾,寫,水調歌頭·明月幾時有>”,其屬性有“<時間,1076年>”,用于表示蘇軾在1076年寫了《水調歌頭·明月幾時有》這首詞。對于實體屬性,可以對其進行拉平,從而形成形似三元組的形式,并被稱為屬性三元組。比如“<蘇軾,生日,1037年1月8日>”和“<蘇軾,性別,男>”等。
至此,知識圖譜的基本概念已大致介紹完畢,相信讀者對知識圖譜有了基本的認識。知識圖譜就是由知識點和知識點之間的關聯關系所組成的網狀的圖,是知識的天然表示形式,既便于人類理解,又易于被機器使用。在知識圖譜中,實體和實體屬性刻畫了知識點的內容,關系和關系屬性則刻畫知識點之間的關聯聯系。
● 知識點(Knowledge Item):被組織起來的、用于表示一個抽象的或者具體的事物的信息。知識點通常與其他知識點存在各種各樣的關聯關系。
● 知識元素(Knowledge Element):表示組成知識點的基本信息。一個知識點通常由許多元素組成。
● 實體(Entity):是指一種獨立的、擁有清晰特征的、能夠區別于其他事物的事物。在信息抽取、自然語言處理和知識圖譜等領域,用來描述這些事物的信息即實體。實體可以是抽象的或者具體的。在知識圖譜中,知識點表示為實體;在圖論、知識存儲或圖數據庫中,實體表示為頂點。
● 關系(Relationship):實體之間的有向的、語義化的表示。在知識圖譜中,知識間的關聯及聯系表現為關系;在圖論、知識存儲或圖數據庫中,關系表示為邊。
● 知識圖譜(Knowledge Graph):由實體及實體間的關系所組成的網狀的圖,每個實體及其關聯的屬性鍵值對用于描述知識點,而每個關系及其屬性用于表示知識點間的關聯關系。