- 知識圖譜:方法、實踐與應用
- 王昊奮 漆桂林等
- 1005字
- 2020-04-03 12:54:47
1.1 什么是知識圖譜
知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關聯關系的技術方法[1]。知識圖譜由節點和邊組成。節點可以是實體,如一個人、一本書等,或是抽象的概念,如人工智能、知識圖譜等。邊可以是實體的屬性,如姓名、書名,或是實體之間的關系,如朋友、配偶。知識圖譜的早期理念來自Semantic Web[2][3](語義網),其最初理想是把基于文本鏈接的萬維網轉化成基于實體鏈接的語義網。
1989年,Tim Berners-Lee提出構建一個全球化的以“鏈接”為中心的信息系統(Linked Information System)。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認為,相比基于樹的層次化組織方式,以鏈接為中心和基于圖的組織方式更加適合互聯網這種開放的系統。這一思想逐步被人們實現,并演化發展成為今天的World Wide Web。
1994年,Tim Berners-Lee又提出Web不應該僅僅只是網頁之間的互相鏈接。實際上,網頁中描述的都是現實世界中的實體和人腦中的概念。網頁之間的鏈接實際包含語義,即這些實體或概念之間的關系;然而,機器卻無法有效地從網頁中識別出其中蘊含的語義。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節點代表的不只是網頁,而是客觀世界中的實體(如人、機構、地點等),而超鏈接也被增加了語義描述,具體標明實體之間的關系(如出生地是、創辦人是等)。相對于傳統的網頁互聯網,Semantic Web的本質是數據的互聯網(Web of Data)或事物的互聯網(Web of Things)。
在Semantic Web被提出之后,出現了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase[5],作為IBM Waston后端的DBpedia[6]和Yago[7],作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Wolfram Alpha,以及開放的Semantic Web Schema——Schema.ORG[8],目標成為世界最大開放知識庫的Wikidata[9]等。尤其值得一提的是,2010年谷歌收購了早期語義網公司MetaWeb,并以其開發的Freebase作為數據基礎之一,于2012年正式推出了稱為知識圖譜的搜索引擎服務。隨后,知識圖譜逐步在語義搜索[10][11]、智能問答[12]、輔助語言理解[15][16]、輔助大數據分析[17]、增強機器學習的可解釋性[20]、結合圖卷積輔助圖像分類[21][22]等多個領域發揮出越來越重要的作用。
如圖1-1所示,知識圖譜旨在從數據中識別、發現和推斷事物與概念之間的復雜關系,是事物關系的可計算模型。知識圖譜的構建涉及知識建模、關系抽取、圖存儲、關系推理、實體融合等多方面的技術,而知識圖譜的應用則涉及語義搜索、智能問答、語言理解、決策分析等多個領域。構建并利用好知識圖譜需要系統性地利用包括知識表示(Knowledge Representation)、圖數據庫、自然語言處理、機器學習等多方面的技術。

圖1-1 知識圖譜:事物關系的可計算模型