前言
知識圖譜的發展歷史源遠流長。從經典人工智能的核心命題—知識工程,到互聯網時代的語義Web,再到當下很多領域構建的數千億級別的現代知識圖譜,以及在語義搜索、智能問答、推薦計算、語言理解、大數據分析、設備物聯等領域的廣泛應用。知識圖譜也是典型的交叉領域,是知識表示、機器學習、自然語言處理、圖數據庫、信息獲取等多個領域相關技術的系統性綜合運用。知識圖譜同時也是不斷發展的新領域,并在不斷與圖神經網絡、聯邦學習、區塊鏈、視覺計算等眾多領域的新發展進一步融合,不斷更新和進步。
為什么寫作本書
本書的初衷是作為浙江大學知識圖譜課程的配套講義。我理想中的大學課程一方面需要提綱挈領,為學生講解核心概念和基本知識點,幫助學生形成一個領域的整體知識體系;另一方面也需要啟發創新,為學生梳理最新的發展前沿,幫助學生開拓視野,啟發學生進一步開展創新研究工作。
因此,本書的基本寫作原則也和課程一樣。全書包含了知識圖譜的基礎知識介紹,全面覆蓋了知識圖譜的表示、存儲、獲取、推理、融合、問答、分析等七大方面,一百多個基礎知識點的內容。同時也囊括了多個知識圖譜相關技術領域的最新發展前沿。例如,有關多模態知識圖譜、知識圖譜與圖神經網絡的融合、本體表示學習、事理知識圖譜、知識增強的語言預訓練模型、知識區塊鏈等內容都是近兩年的新熱點,也被首次系統性地整理進來。此外,本書也包含了作者團隊在知識圖譜方向的一部分學術探索和應用實踐工作,例如知識圖譜與可解釋人工智能、知識驅動的低資源學習、大規模知識圖譜預訓練等。
知識圖譜不是單一技術,而是系統工程。本書希望幫助讀者建立知識圖譜的系統工程觀,為各個領域的技術決策者提供知識圖譜的整體視圖,幫助企業技術實踐者系統性地了解知識圖譜的各方面技術要素,同時也為前沿科研人員拓展研究視野和創新方向。
因此,它的核心定位是一本知識圖譜方向的導論、總論性質的書,并將持續配套課程內容進行更新。它可以和其他圖書配合使用,例如由OpenKG組織編寫的《知識圖譜:方法、實踐與應用》;由阿里巴巴與浙江大學知識圖譜團隊聯合編寫,詳細介紹阿里巴巴電商知識圖譜工程實踐工作的《工業級知識圖譜:方法與實踐》等書。
本書主要內容
本書共包括9章,主要內容如下:
第1章首先從語言和知識兩個視角闡明知識圖譜是實現認知人工智能的重要一環。然后通過追溯知識圖譜的發展歷史,說明知識圖譜不僅和人工智能有關,而且具有非常強的互聯網基因。
第2章探討了知識圖譜的表示問題,分別介紹了知識表示的內涵、人工智能發展歷史長河中出現的各種知識表示方法,并重點圍繞知識圖譜介紹了最常用的符號表示和向量表示兩種方法。
第3章探討知識圖譜的存儲和查詢問題。在很多實際的知識圖譜項目中,搭建圖數據庫并建立知識圖譜查詢引擎仍然是最基礎的工作。本章不僅介紹了圖數據庫的一些選型原則,還深入到原生圖數據庫背后的實現原理,幫助大家從本質上把握圖數據的優缺點。
第4章探討知識圖譜的構建。首先簡要回顧并重新理解知識工程的發展歷史與技術內涵,然后分別從實體識別與分類、關系抽取與屬性補全、概念抽取、事件識別與抽取等五個方面介紹知識抽取技術的內涵。
第5章關注知識圖譜的一個重要技術領域——推理。利用機器實現類似于人類心智的推理能力是人工智能自誕生以來最核心的目標和任務之一。我們構建各種各樣的知識圖譜來描述客觀世界,抽象萬物之間的邏輯關系,不只是為了查詢和搜索,更是為了利用這些事實性知識去推斷、歸納和預測未知的新知識。本章重點介紹了基于符號邏輯和基于表示學習的兩類不同的知識圖譜推理方法。
第6章探討知識融合問題。首先簡要回顧知識圖譜構建和應用中遇到的知識異構性問題,并理解知識融合的意義和目標,然后分別從本體匹配和實體對齊兩方面介紹知識融合技術的內涵,最后還總結了知識融合技術的發展前沿和趨勢。
第7章介紹知識圖譜在智能問答中的應用。知識圖譜作為一種結構化的問答語料,由于能夠提供相比于文本更為精準的答案而被廣泛地應用于各種智能問答系統中。本章分別介紹了基于問句模板、基于語義解析、基于檢索排序和基于深度學習等四種不同的知識圖譜問答實現方法。
第8章重點介紹知識圖譜中偏“圖”方面的內容。從圖論和圖算法的一些基本知識出發,逐步擴展到介紹圖表示學習算法和圖神經網絡模型,并著重介紹利用圖表示學習和圖神經網絡等方法處理知識圖譜數據的一些模型和方法,以及在計算機視覺、自然語言處理、推薦計算等領域的一些應用。
第9章主要介紹知識圖譜的新發展。知識圖譜是發展迅速的交叉技術領域,并在不斷地與其他領域進一步融合。本章從多模態知識圖譜、知識增強的語言預訓練模型、事理知識圖譜、知識驅動的低資源學習、知識圖譜預訓練、知識圖譜與區塊鏈等方面,嘗試對一些知識圖譜技術的新發展做一些概要性的介紹。
如何閱讀本書
這是一本知識點比較豐富的書,讀者應該怎樣利用這本書呢?
首先,閱讀本書的最好方式是和浙江大學知識圖譜慕課課程配合學習。可在智慧樹在線教育平臺中搜索“知識圖譜”獲取。本書的章節安排與課程安排基本一致。除了觀看慕課視頻,讀者還可以通過慕課課程提供的諸如知識點測試試題、課程實踐向導等資源鞏固相關知識點。
其次,本書的一些章節需要讀者具備一些前置知識。例如,第2章需要讀者具有數據庫技術的相關基礎,第3章到第8章要求讀者已經了解基本的機器學習知識,并開展過一些深度學習實踐。第4章要求讀者已經掌握部分自然語言處理的基本知識。
知識圖譜技術點繁多,比較好的學習方式是首先對書的整體內容進行概要性瀏覽,略過細節。在形成對知識體系的整體認知之后,再結合自己感興趣的點進行深入研讀。如果研讀某個知識點仍然感覺吃力,可以通過對應的慕課課程講解進一步深入理解。
致謝
感謝幫助建設知識圖譜課程和為本書編寫提供素材的浙江大學知識圖譜團隊全體成員,本書的不少內容得益于團隊的集體努力。感謝我的家人給予我堅持不懈的支持。
感謝陸汝鈐院士為本書撰寫序言,感謝王熙照教授、張民教授和司羅教授的推薦,以及許多領域前輩和老師在本書撰寫過程中給予的指導和支持。
感謝電子工業出版社博文視點的宋亞東編輯對本書的重視,以及出版人員為本書所做的一切。
由于作者水平有限,書中不足之處在所難免,敬請專家和讀者給予批評指正。
陳華鈞
2021年2月