官术网_书友最值得收藏!

1.1 知識圖譜序言

2009年5月,NBA西部半決賽正在進行,剛剛接觸籃球不久的阿楠驚嘆于火箭隊的中國大個兒——姚明的表現,于是嘗試搜索姚明的臂展。他打開Google搜索引擎,將“姚明臂展”作為關鍵字進行搜索,得到一整頁與姚明相關的網頁鏈接,在嘗試打開若干個鏈接之后,阿楠終于找到一個關于姚明的介紹,里面提到姚明的臂展是7英尺5英寸。然后,他又搜索尺寸轉換標準,計算出姚明的臂展足足有226.1厘米。可以看到,在當時,想要通過搜索引擎獲取一個問題的答案,可能要經過很多步驟,即便Google已經在2009年3月開始支持更長的查詢和初步的語義功能,想要從搜索直接獲得答案仍是一件基本不可能的事情。

那么十多年后的今天,如果阿楠想得到同樣的答案,會有什么不一樣嗎?答案是肯定的,如今在Google搜索引擎中搜索“姚明”(讀者可自行嘗試),會在搜索頁面的右側出現一個包含很多信息的方框,里面除了姚明的代表性圖片,還有其基本信息,同時也給出了其他用戶感興趣的搜索項。搜索結果中優先給出了姚明的百科信息鏈接(維基百科和百度百科),還給出了姚明的相關視頻及新聞。可謂內容豐富,圖文并茂。

甚至,阿楠還可以用一種更簡單的方法,通過在Google搜索引擎中搜索“姚明的臂展,厘米”直接得到答案。

“讓搜索通往答案”正是Google搜索引擎的目標之一。而這一切都基于2012年Google發布的知識圖譜(Knowledge Graph)。Google知識圖譜通過從各種來源搜集信息,來增強搜索引擎結果的準確性。同時,這些不同來源的信息會被添加到搜索引擎右側的信息框(Infobox)中。Google知識圖譜在發布后的幾個月內,就已覆蓋了超過5.7億個實體(Entity)以及180億條事實(Fact),并回答了在2016年5月Google搜索引擎中接近三分之一的問題(問題搜索總量約為1000億)[1]

利用Google知識圖譜,如果用戶想要搜索文藝復興時期的達·芬奇,就會得到如圖1-1所示的結果,包括不同的實體以及這些實體是如何連接在一起的。我們不僅可以看到達·芬奇的生卒年月(1452—1519),還可以看到他和他的作品(蒙娜麗莎)、他和他的出生地(意大利)之間的聯系。通過發掘這樣相互聯系的結果,用戶可以了解實體更深層次的信息,并進行關聯信息的查詢。

000

圖1-1 Google知識圖譜中“達·芬奇”的可視化搜索結果

通過以上的例子,我們可以直觀地感受到,知識圖譜是一種具有圖結構的知識庫,其結點通過一些邊連接在一起,也可以看到知識圖譜在搜索引擎上的強大應用。知識圖譜可以看作一類語義網絡(Semantic Network)。語義網絡是一種表示網絡中概念(Concept)之間語義關系的知識庫,通常是一個有向或無向圖,由表示概念的結點和表示概念之間語義關系的邊組成。在圖1-1中,達·芬奇是一個結點,而達·芬奇和蒙娜麗莎的關系就是一條邊。

可以看到,Google通過一個強大的知識圖譜,提高了用戶的搜索體驗。實際上,Google是站在巨人的肩膀上做了一個拓展,這個巨人就是當時世界上最大的知識圖譜之一——Freebase[2]知識庫。

Freebase是一個大型的眾包知識庫,其數據源自維基百科[3]、NNDB[4]、MusicBrainz[5]等,同時通過開源免費吸引用戶貢獻數據,在運行3年之后,被Google納入麾下,成為其知識圖譜的重要基石。可惜的是,Freebase官方網站已經在2016年5月關閉,用戶目前僅能通過Google API下載其歷史數據文件。圖1-2是Freebase官方網站在關閉之前的截圖。

000

圖1-2 Freebase官網截圖


[1] https://en.wikipedia.org/wiki/Knowledge_Graph。

[2] https://developers.google.com/freebase。

[3] https://www.wikipedia.org/。

[4] https://www.nndb.com/。

[5] https://musicbrainz.org/。

主站蜘蛛池模板: 积石山| 黔江区| 新建县| 博湖县| 老河口市| 若尔盖县| 阿坝| 柯坪县| 澳门| 泉州市| 邻水| 泗水县| 宝清县| 夏河县| 鹤庆县| 怀远县| 永登县| 金溪县| 集安市| 喜德县| 嘉鱼县| 寿阳县| 称多县| 唐河县| 荃湾区| 罗田县| 北京市| 萨迦县| 万州区| 武邑县| 鹤山市| 稷山县| 西乌珠穆沁旗| 衡水市| 肥西县| 赤壁市| 惠来县| 泾阳县| 张家口市| 桐庐县| 浮梁县|