- 從零構建知識圖譜:技術、方法與案例
- 邵浩 張凱 李方圓 張云柯 戴錫強
- 1292字
- 2021-08-06 17:17:15
1.1 知識圖譜序言
2009年5月,NBA西部半決賽正在進行,剛剛接觸籃球不久的阿楠驚嘆于火箭隊的中國大個兒——姚明的表現,于是嘗試搜索姚明的臂展。他打開Google搜索引擎,將“姚明臂展”作為關鍵字進行搜索,得到一整頁與姚明相關的網頁鏈接,在嘗試打開若干個鏈接之后,阿楠終于找到一個關于姚明的介紹,里面提到姚明的臂展是7英尺5英寸。然后,他又搜索尺寸轉換標準,計算出姚明的臂展足足有226.1厘米。可以看到,在當時,想要通過搜索引擎獲取一個問題的答案,可能要經過很多步驟,即便Google已經在2009年3月開始支持更長的查詢和初步的語義功能,想要從搜索直接獲得答案仍是一件基本不可能的事情。
那么十多年后的今天,如果阿楠想得到同樣的答案,會有什么不一樣嗎?答案是肯定的,如今在Google搜索引擎中搜索“姚明”(讀者可自行嘗試),會在搜索頁面的右側出現一個包含很多信息的方框,里面除了姚明的代表性圖片,還有其基本信息,同時也給出了其他用戶感興趣的搜索項。搜索結果中優先給出了姚明的百科信息鏈接(維基百科和百度百科),還給出了姚明的相關視頻及新聞。可謂內容豐富,圖文并茂。
甚至,阿楠還可以用一種更簡單的方法,通過在Google搜索引擎中搜索“姚明的臂展,厘米”直接得到答案。
“讓搜索通往答案”正是Google搜索引擎的目標之一。而這一切都基于2012年Google發布的知識圖譜(Knowledge Graph)。Google知識圖譜通過從各種來源搜集信息,來增強搜索引擎結果的準確性。同時,這些不同來源的信息會被添加到搜索引擎右側的信息框(Infobox)中。Google知識圖譜在發布后的幾個月內,就已覆蓋了超過5.7億個實體(Entity)以及180億條事實(Fact),并回答了在2016年5月Google搜索引擎中接近三分之一的問題(問題搜索總量約為1000億)[1]。
利用Google知識圖譜,如果用戶想要搜索文藝復興時期的達·芬奇,就會得到如圖1-1所示的結果,包括不同的實體以及這些實體是如何連接在一起的。我們不僅可以看到達·芬奇的生卒年月(1452—1519),還可以看到他和他的作品(蒙娜麗莎)、他和他的出生地(意大利)之間的聯系。通過發掘這樣相互聯系的結果,用戶可以了解實體更深層次的信息,并進行關聯信息的查詢。

圖1-1 Google知識圖譜中“達·芬奇”的可視化搜索結果
通過以上的例子,我們可以直觀地感受到,知識圖譜是一種具有圖結構的知識庫,其結點通過一些邊連接在一起,也可以看到知識圖譜在搜索引擎上的強大應用。知識圖譜可以看作一類語義網絡(Semantic Network)。語義網絡是一種表示網絡中概念(Concept)之間語義關系的知識庫,通常是一個有向或無向圖,由表示概念的結點和表示概念之間語義關系的邊組成。在圖1-1中,達·芬奇是一個結點,而達·芬奇和蒙娜麗莎的關系就是一條邊。
可以看到,Google通過一個強大的知識圖譜,提高了用戶的搜索體驗。實際上,Google是站在巨人的肩膀上做了一個拓展,這個巨人就是當時世界上最大的知識圖譜之一——Freebase[2]知識庫。
Freebase是一個大型的眾包知識庫,其數據源自維基百科[3]、NNDB[4]、MusicBrainz[5]等,同時通過開源免費吸引用戶貢獻數據,在運行3年之后,被Google納入麾下,成為其知識圖譜的重要基石。可惜的是,Freebase官方網站已經在2016年5月關閉,用戶目前僅能通過Google API下載其歷史數據文件。圖1-2是Freebase官方網站在關閉之前的截圖。

圖1-2 Freebase官網截圖
[1] https://en.wikipedia.org/wiki/Knowledge_Graph。
[2] https://developers.google.com/freebase。
[3] https://www.wikipedia.org/。
[4] https://www.nndb.com/。
[5] https://musicbrainz.org/。
- 控糖控脂健康餐
- Web開發的貴族:ASP.NET 3.5+SQL Server 2008
- Wireshark Network Security
- 區塊鏈:以太坊DApp開發實戰
- 單片機應用技術
- Scala謎題
- Mastering ArcGIS Enterprise Administration
- Arduino計算機視覺編程
- scikit-learn Cookbook(Second Edition)
- PowerDesigner 16 從入門到精通
- 美麗洞察力:從化妝品行業看顧客需求洞察
- Azure for Architects
- VC++ 2008專題應用程序開發實例精講
- 計算機軟件項目實訓指導
- Eclipse開發(學習筆記)