- 知識圖譜實戰:構建方法與行業應用
- 于俊 李雅潔 彭加琪 程知遠
- 3914字
- 2023-06-28 16:32:00
1.1 知識圖譜概述
知識圖譜并不是一個全新的概念,最遠可以追溯到人工智能發展初期,其伴隨著人工智能的發展而發展。我們先從知識圖譜的定義開始,在理解知識圖譜定義的基礎上,進一步通過知識圖譜分類幫助讀者認識不同領域的知識圖譜。
1.1.1 知識定義及分類
根據哲學家柏拉圖經典的知識定義,知識需要滿足三個條件,即合理性(Justified)、真實性(True)、被相信(Believed)。簡單而言,知識是人類通過觀察、學習和思考有關客觀世界的各種現象而獲得與總結出來的所有事實、概念、規則或原則的集合,是人類進行智能活動的基礎。
知識的界定沒有一個統一的標準。知識是符合文明發展方向的,是人類對客觀世界以及精神世界探索的結果總和。知識的價值判斷標準在于實用性,以能否讓人類創造新物質,得到力量和權力等為考量因素。
我們從不同的研究視角、研究目的及對知識的不同認識程度對知識進行分類,主要包括以下幾種。
1)按照知識層次劃分,可劃分為零級知識、一級知識、二級知識和高層次知識。
零級知識:最基本層的知識,包括問題域內的事實、屬性、定理、定義等,屬于問題求解的常識性和原理性知識。
一級知識:第二層知識,啟發式知識,可彌補零級知識的不足,提高求解效率。
二級知識:第三層知識,控制性知識,對低層知識起指導作用,組織、運用零級和一級知識。
高層次知識:如回憶、綜合、概括、抽象等,也反映人的心理特征。
2)按照知識的性質劃分,可分為敘述性知識、過程性知識、控制性知識。
敘述性知識:表示問題的狀態、概念、條件、事實的知識。
過程性知識:表示問題求解過程中用到的各種操作、演算和行動等的知識。
控制性知識:表示問題求解過程中決定選用哪種操作、演算和行動等的知識。
3)按照知識來源劃分,可分為共性知識和個性知識。
共性知識:指問題域內有關事物、屬性、概念、定義、定理、原理、理論、算法等的知識,它們來自教科書和刊物,并已為領域專業人員所承認和接受。
個性知識:來自現場有經驗的專業人員,包括大量的經驗知識或啟發式知識。它描述問題的輪廓,知識嚴格性差。
綜上,不管從什么角度去劃分知識,要想用機器對知識進行處理,必須以適當的形式對知識進行表示,而構建知識實體之間的結構化關系網絡的知識圖譜,有助于知識的發現、共享和傳授。
1.1.2 知識圖譜定義
知識圖譜[1](Knowledge Graph, KG)以結構化的形式描述現實世界中的實體及其關系,將互聯網信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力。
一般認為,知識圖譜于2012年5月17日由谷歌正式提出并成功應用在搜索引擎中。因此,知識圖譜通常被認為是一種可以提供智能搜索服務的大型知識庫,且早期通常被用來泛指各種大規模的知識庫,但是隨著知識圖譜技術的發展,其應用范圍進一步擴大,除了知識庫存儲知識之外,還包括知識之間的關系。知識圖譜是以圖的方式來組織并描述現實世界實體及其關系,定義實體及其關系的屬性,并允許實體之間任意相互連接。
在理解知識圖譜之前,我們先簡單介紹一下知識圖譜的相關概念。
概念:是對現實世界中具有相同屬性的事物的概括和抽象,比如國家、人、動物、職業、地點、筆等。
實體:是概念對應的現實世界中的具體事物,比如中國、張三、老虎、軟件工程師、合肥、鉛筆等。
關系:是用來表達不同實體之間的某種聯系。不同實體之間通過關系相互連接,比如國與國之間的競爭關系、合作關系、敵對關系等,人與人之間的父子關系、夫妻關系、同學關系等。
屬性:是指對實體或關系抽象方面的刻畫,實體屬性如一個人的年齡、身高、體重等,關系屬性如夫妻關系的結婚時間、同學關系的就讀學校等。
更進一步,知識圖譜就是把現實世界中不同種類的事物連接在一起而得到的一個關系網絡,提供了從關系的角度去分析問題的能力。圖1-1所示為一個簡單知識圖譜概念與實體的示例。人、運動、場地是對現實世界中具有相同屬性的事物的概括和抽象,而小李、小丁是概念“人”對應的具體事物節點,跑步、踢球是概念“運動”對應的具體事物節點,操場、球場是概念“場地”對應的具體事物節點。小李和小丁是同學,小李喜歡在操場上跑步,小丁喜歡在球場上踢球,則是實體之間的關系表示。

圖1-1 簡單知識圖譜概念與實體示例
總之,如果兩個節點之間存在關系,它們就會被一條有向邊連接在一起。我們稱節點為實體,稱它們之間的邊為關系,除此之外,我們還可以通過屬性對實體或關系進行刻畫,后文會進行詳細解釋。
從本質上講,知識圖譜是一種揭示實體之間關系的語義網絡,可以對現實世界的事物及其相互關系進行形式化描述。它的組織形式是有向圖,其中圖的節點表示概念或實體,圖的邊表示概念/實體之間的各種語義關系。
從實際應用上講,知識圖譜不僅給互聯網語義搜索帶來了活力,而且它的“實體-關系-實體”和“實體-屬性-屬性值”三元組結構在實體搜索、實體推薦、實體問答中顯示出了強大威力,知識圖譜已經成為互聯網知識驅動的智能應用基礎設施。知識圖譜與大數據、深度學習一起,成為推動互聯網和人工智能發展的核心驅動力之一,成功應用于智能搜索、推薦系統、知識問答、推理決策等領域。
1.1.3 知識圖譜分類
知識圖譜的分類方式眾多,一般按照知識領域、知識種類和構建方法等進行劃分。我們按照知識領域將知識圖譜劃分為通用知識圖譜和領域知識圖譜,下面詳細介紹這兩類知識圖譜。
1.通用知識圖譜
通用知識圖譜可以形象地看成一個面向通用領域的“結構化的百科知識庫”,包含了大量現實世界中的常識性知識?,F實世界的知識豐富多樣且極其龐雜,通用知識圖譜廣羅網絡上的各種數據知識,重點關注知識的廣度,但由于大量來自網絡上的數據知識未經驗證,造成通用知識圖譜的準確度不夠高。盡管如此,通用知識圖譜仍然憑借著其應用范圍極廣的優勢,推動著各類知識圖譜相關項目不斷落地。
表1-1給出了當前國內外部分典型的通用知識圖譜項目。
表1-1 部分典型的通用知識圖譜項目

在以上通用知識圖譜中,用戶可以獲取公開的知識數據,因此,通用知識圖譜也稱為開放知識圖譜,在知識工程時代也稱為鏈接開放數據(Linked Open Data, LOD)。一些較大的通用知識庫(例如DBpedia、Wikidata以及YAGO)的數據內容較多,同時也是其他知識圖譜數據的重要來源,與它們相關聯的知識庫數目眾多。
值得一提的是,本書的一些內容也參考了OpenKG聯盟中的開放資源,讀者可以參考,以了解更多知識圖譜的專業知識。
2.領域知識圖譜
領域知識圖譜面向特定領域,應用于具體業務,對知識圖譜的實用性及知識的準確度要求更高。領域知識圖譜可以看成是一個基于語義網絡的行業知識庫,需要依靠特定行業的數據來構建,因此又叫特定領域知識圖譜或垂直知識圖譜。
在領域知識圖譜中,實體屬性與數據模式往往比較豐富,在圖譜構建和應用過程中需要考慮不同的業務場景與使用人員。例如生活類、社交類、電商類、金融類、醫療類等,要求具有特定的行業意義。
下面我們簡要介紹幾種常見的領域知識圖譜。
(1)生活類知識圖譜
知識圖譜具有很強的可解釋性,并且在搜索商家等場景中充分驗證了知識圖譜的有效性。知識圖譜通過對商家的多維度精準刻畫,實現在商場搜索、美食搜索、旅游搜索、酒店搜索等生活領域的落地應用,直接為用戶搜索出適合的商家或場景?;谥R圖譜的生活類業務搜索結果不僅精準,還多樣化。
(2)社交類知識圖譜
知識圖譜能夠基于用戶行為數據精準構建用戶畫像,包含與社會最相關的概念及實體,以及人物、場所、興趣點、電影、電視、音樂、體育等眾多內容。此外,社交網絡在知識圖譜技術的推動下,已經可以做到推斷用戶的想法并提供建議,如聊天時的推薦回復,對聊天信息進行實體檢測并推薦相關內容等。
(3)電商類知識圖譜
推薦工作常常是最重要的。盡管近年來電商類推薦算法已經取得了長足的進步,但這些算法仍然存在諸多問題,如不能很好地理解用戶需求造成重復推薦、過度推薦等。通過構建場景、品類及商品知識圖譜,能夠讓推薦算法更好地理解用戶行為,發現用戶想要購買的商品?;谥R圖譜的商品推薦能夠有效地進行信息過濾,減少用戶獲取信息的時間,提高用戶處理信息的效率。
(4)金融類知識圖譜
在眾多金融類業務的應用中,知識圖譜主要應用于金融行業的語義理解、知識搜索和數據分析中,為金融領域的精準獲客、貸前授信、貸中評估、貸后監管等需求提供技術支撐。越來越多的金融機構及企業已經在積極探索構建金融領域知識圖譜,希望能將海量非結構化信息自動化地利用起來,為金融領域提供更精準、更可靠的決策依據。
(5)醫療類知識圖譜
在眾多醫療類業務的應用中,已經有多家科研機構及企業對醫療知識圖譜進行了深入研究,并推出了集成大規模、高質量醫學知識基礎集的醫療知識圖譜。借助醫療知識圖譜,醫療決策支持系統可以根據患者癥狀描述及化驗數據,給出智能診斷、治療方案推薦及轉診建議,還可以針對醫生的診療方案進行分析、查漏補缺,減少甚至避免誤診。醫療知識圖譜的研究也包含健康管理、疾病風險預測、輔助診療、病歷結構化等應用。
以上眾多領域、不同功能的知識圖譜的構建不是一蹴而就的,而是經過漫長的發展與優化才形成如今覆蓋眾多行業的知識圖譜應用。在知識圖譜廣泛應用的背后,是一批批知識圖譜工作者們漫長而又堅實的研究與探索。
1.1.4 知識圖譜發展階段
知識圖譜始于20世紀50年代,至今大致分為3個階段[2],如圖1-2所示。

圖1-2 知識圖譜的發展歷程
下面主要介紹一下第三階段(2012年至今)。在這一階段,谷歌提出了Google Knowledge Graph,通過知識圖譜技術改善了搜索引擎性能。伴隨著人工智能的蓬勃發展,知識圖譜涉及的知識抽取、表示、融合、建模、推理等關鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務領域的一個新熱點,受到學術界和工業界的廣泛關注。尤其是在工業界,阿里巴巴、騰訊、百度、美團、字節跳動、華為、科大訊飛等科技公司都在各自領域搭建并成功應用了知識圖譜。