官术网_书友最值得收藏!

1.2 知識圖譜的起源

1.2.1 知識圖譜的互聯(lián)網基因

我們已經了解了知識圖譜與語言理解、人工智能的關系。本節(jié)介紹知識圖譜的互聯(lián)網基因。1945年,美國首任總統(tǒng)科學顧問Vannevar Bush曾提出了一個稱為MEMEX的“記憶機器”的設想。他認為人的記憶偏重關聯(lián),而非像圖書館那樣采用嚴格的層次分類目錄組織大腦中的信息。因此,他提出設計一種Mesh關聯(lián)網絡來存儲電子化的百科全書。

MEMEX記憶機器的設想啟發(fā)了超文本技術Hypertext的實現,而超文本技術則直接促成了互聯(lián)網的最大應用——World Wide Web的發(fā)明。Web是由英國人Tim Berners-Lee提出的,他因為Web技術的貢獻獲得了2016年的圖靈獎。1989年,Tim作為歐洲高能物理研究中心的計算機工程師,提出了一種基于超文本技術的信息管理系統(tǒng)建議書。如圖1-8所示,在建議書中,就可以看到知識圖譜的影子。

圖1-8 基于超文本技術的信息管理系統(tǒng)建議書(1989)

起初,他只是希望為高能物理研究中心的科學家設計一種新型的科技文獻管理系統(tǒng)。他利用超文本鏈接技術實現科技文獻之間的相互關聯(lián),并實現了世界上第一個能處理這種超文本鏈接的Web服務器和瀏覽器。他認為,信息應該以圖的方式組織,圖中的節(jié)點可以是任何事物,節(jié)點之間的鏈接代表事物之間的關聯(lián),這樣將大幅提升信息檢索的效率和能力。這種以圖和鏈接為中心的系統(tǒng),在開放的互聯(lián)網環(huán)境里面更容易生長和擴展。這一理念逐步被人們實現,并演化發(fā)展成為今天的World Wide Web。

1.2.2 數據的互聯(lián)網—Semantic Web

1994年,Web已經在全世界范圍內快速發(fā)展起來,成為互聯(lián)網上的最大應用。但Tim指出,這種以文本鏈接為主的Web并非他設想中的終極Web的樣子。他認為終極的Web應該是Web of Everythings。例如,一位教授的個人主頁實際上描述的是他的各種屬性信息,如果他的主頁上有一個超鏈接指向浙江大學的官方主頁,這個超鏈接實際上指的是這名教授和浙江大學是雇傭關系,但這個超鏈接沒有這方面的語義描述,搜索引擎也無法識別和處理這種語義關系。因此,他于1998年正式提出了Semantic Web(語義網)的概念。與經典Web一樣,Semantic Web也是以圖和鏈接為中心的信息管理系統(tǒng),但不同之處是,圖中的節(jié)點可以是粒度更細的事物,如一本書、個人、機構和概念等,圖中的鏈接也標明這些事物之間的語義關系,如雇傭、朋友和作者等。這就是知識圖譜的早期理念。

對Semantic Web的另外一種解讀叫Linked Data。這是站在大數據的視角,指的是通過規(guī)范化的語義表達框架,比如Schema或Ontology,將碎片化的數據關聯(lián)和融合形成高度關聯(lián)的大數據,如圖1-9所示。所以本質上,Semantic Web也可以看作是一種數據關聯(lián)網絡,告訴我們可以通過規(guī)范化的語義加強數據之間的邏輯關聯(lián)性,從而幫助發(fā)現和釋放數據的內在價值。

圖1-9 Linked Data

在Semantic Web提出以后的10余年里,催生了眾多的語義網數據項目,比較著名的如谷歌知識圖譜的核心數據來源Freebase,歐洲的LinkingOpenData,維基基金會倡導的WikiData等。由國內科研機構和企業(yè)共同發(fā)起的OpenKG收錄了很多中文領域的語義網開放數據集。

1.2.3 Things, Not Strings

谷歌公司于2010年收購了開發(fā)Freebase的Meta Web公司,并于2012年發(fā)布了首個基于知識圖譜實現的搜索引擎。谷歌知識圖譜本質上是Semantic Web理念的商業(yè)化實現。對于搜索引擎,知識圖譜解決了一個難題,即精確的對象級搜索問題。傳統(tǒng)搜索引擎只能返回很多相關頁面,用戶需要從海量文本中自行尋找答案,即所謂字符串(Strings)級別的搜索。但用戶希望直接搜索最終的答案,例如用戶問:“浙江大學位于哪個城市”,希望得到對事物的精準描述——杭州市,而非返回很多頁面,讓用戶自己從眾多頁面中尋找正確答案,即所謂事物(Things)對象級別的搜索。谷歌通過構建龐大的知識圖譜,以結構化而非純文本的方式描述事物的屬性以及事物之間的關聯(lián)關系,就可以實現這種對象級的精準搜索。當然,知識圖譜的價值不止搜索,將在后續(xù)章節(jié)中進一步展開介紹。

1.2.4 典型的知識圖譜項目

接下來簡要介紹歷史上出現過的典型知識圖譜項目。Freebase是早期的語義網項目,主要通過開放社區(qū)協(xié)作方式構建,在經過近8年的開發(fā)和數據積累后,其母公司MetaWeb于2010年被谷歌收購。谷歌隨后在Freebase基礎之上發(fā)布了其面向搜索的知識圖譜。

Wikidata在一定程度上可以看作Freebase的后續(xù)發(fā)展,它由維基基金會支持,同樣也是依靠開放社區(qū)眾包構建。它的目標是要成為世界上最大的免費知識庫,并采用了CC0完全自由的開放許可協(xié)議。

Schema.org是谷歌等搜索引擎公司共同推動的Web數據Schema標準。Schema.org本質上是一種輕量級的本體,定義了有關人物、機構和地點等最常用的1000多個類和關系。任何人都可以利用這個Schema描述自己的數據,并以RDFa、Mcirodata等格式插入網頁或郵件中。這使得每個人或機構都可以定制自己的知識圖譜信息,并被搜索引擎快速地抓取和更新到后臺數據庫中。

DBPedia也是早期的語義網項目。DBPedia意指數據庫版本的Wikipedia,是從Wikipedia抽取出來的鏈接數據集。DBPedia采用了一個較為嚴格的本體,包含人、地點、音樂、電影、組織機構、物種和疾病等類定義。

YAGO是由德國馬普研究所研制的鏈接數據庫。YAGO主要集成了Wikipedia、WordNet和GeoNames三個來源的數據。其主要特點是考慮了時間和空間維度的知識表示。YAGO是IBM Watson的后端知識庫之一。

WordNet是最著名的詞典知識庫,主要用于詞義消歧等自然語言處理任務。由普林斯頓大學認知科學實驗室從1985年開始開發(fā),與谷歌知識圖譜以實體關系為主不同,它主要定義詞與詞之間的語義關系。

ConceptNet源于MIT的Open Mind Common Sense項目,由著名的人工智能專家Marvin Minsky于1999年建議創(chuàng)立。與谷歌知識圖譜相比,ConceptNet側重于詞與詞之間的關系,更加接近于WordNet,但比WordNet包含的關系類型更多。

BabelNet是多語言詞典知識庫,它集成了WordNet在詞語關系上的優(yōu)勢和Wikipedia在多語言方面的優(yōu)勢。通過機器翻譯技術,自動化地構建了目前最大規(guī)模的多語言詞典知識庫,目前包含了271種語言和1400萬個同義詞組。

前面介紹的主要是英文領域的部分較為典型的知識圖譜項目。在中文領域,中國中文信息學會語言與知識計算專業(yè)委員會于2015年啟動了OpenKG中文開放知識圖譜項目的建設,系統(tǒng)地收集和整理了中文領域的眾多開放知識圖譜,讀者可以訪問OpenKG官網了解。

1.2.5 知識圖譜的概念演進

知識圖譜并非突然出現的全新技術,而是很多相關領域不斷發(fā)展融合的結果。一方面,知識圖譜具有人工智能的基因,這可以追溯到1960年,人工智能領域學者提出的知識表示方法——語義網絡的本質就是一種知識圖譜的表示方式,如圖1-10所示。將在第2章中具體介紹人工智能發(fā)展歷史上提出的一些典型的知識表示方法,如框架系統(tǒng)、產生式規(guī)則、本體論和描述邏輯等。另外一方面,知識圖譜也具有很鮮明的互聯(lián)網基因。互聯(lián)網的發(fā)展特別是萬維網的發(fā)展促進了人類知識的共享和開放領域數據如Wikipedia的眾包積累,沒有萬維網數十年積累的開放數據,也不會有谷歌的知識圖譜。此外,利用圖結構的方式描述萬物關系和記錄事物知識的理念也來源于萬維網。因此,需要從多個不同的技術視角全面地掌握知識圖譜的本質內涵。

圖1-10 知識圖譜相關概念演化歷史

主站蜘蛛池模板: 黄山市| 昔阳县| 新津县| 黔南| 南召县| 军事| 顺义区| 广灵县| 平湖市| 湘潭市| 海晏县| 巩义市| 高雄市| 内乡县| 南部县| 普兰店市| 胶州市| 崇文区| 胶南市| 吉木萨尔县| 嵩明县| 泸西县| 湘乡市| 上蔡县| 建始县| 广德县| 和政县| 云龙县| 颍上县| 普安县| 武陟县| 凉城县| 安溪县| 屏东市| 南投市| 峨眉山市| 左权县| 绍兴县| 嘉禾县| 卢氏县| 长宁区|