1.3 知識圖譜的價值
1.3.1 知識圖譜支持語義搜索
知識圖譜有什么用處呢?知識圖譜源于互聯網,所以第一個落地的應用當然也是互聯網搜索引擎。前面已經介紹過,谷歌在2012年推出知識圖譜支持的新搜索引擎時,提出的口號是“Things, Not Strings!”。Web的理想是鏈接萬物,搜索引擎最終的理想是能直接搜索萬事萬物,這是非常樸素且簡單的理念。知識圖譜支持的事物級別而非文本級別的搜索,大幅度提升了用戶的搜索體驗。因此,當前所有的搜索引擎公司都把知識圖譜作為基礎數據,并成立獨立部門持續建設。
1.3.2 知識圖譜支持智能問答
知識圖譜的第二類應用是智能問答,比如天貓精靈、小米小愛和百度度秘等背后都有知識圖譜數據和技術的支持。智能問答本質就是一種對話式的搜索,相比普通的搜索引擎,智能問答更加需要事物級的精確搜索和直接回答。智能廚房、智能駕駛、智能家居等都需要實現這種對話式的信息獲取。
當前,實現智能問答功能主要有三種形式,第一種是問答對,這種實現簡單的建立問句和答句之間的匹配關系,優點是易于管理,缺點是無法支持精確回答。第二種形式要求給定問句就能直接從大段文本中準確地定位答案,雖然這是終極期望的形式,但源于語言理解本身的困難,比較難于完全實用。第三種是知識圖譜,相對于純文本,從結構化的知識圖譜中定位答案要容易得多,同時比起問答對形式,因為答案是以關聯圖的形式組織的,所以不僅能提供精準答案,還能通過答案關聯,非常便利地擴展相關答案。
1.3.3 知識圖譜支持下的推薦系統
推薦系統也是知識圖譜的典型應用場景。例如,在電商的推薦計算場景中,可以分別構建User KG和Item KG。知識圖譜的引入豐富了User和Item的語義屬性和語義關系等信息,將大大增強User和Item的特征表示,從而有利于挖掘更深層次的用戶興趣。關系的多樣性也有利于實現更加個性化的推薦,豐富的語義描述還可以增強推薦結果的可解釋性,讓推薦結果更加可靠和可信,如圖1-11所示。

圖1-11 知識圖譜增強推薦系統的可解釋性
1.3.4 知識圖譜輔助語言語義理解
知識對于正確理解語言至關重要,所以自然語言處理領域也是擁抱知識圖譜最多的領域之一。正如第一個自然語言理解系統SHRDLU作者Terry Winograd指出的,當一個人聽到或看到一句話時,他使用自己所有的知識和智能去理解。這不僅包括語法,也包括他的詞匯知識、上下文知識,更重要的是對相關事物的理解。
Winograd Schema Challenge是人工智能領域有關常識推理的競賽。這個競賽出了很多這種題目,如圖1-12所示,在第一例子中,讓機器閱讀一句話,然后要求機器判斷其中的it是指代the trophy還是the suitcase。此外,還要求機器把句子中的big換成反義詞small之后,能夠正確地選擇相反的答案。這在自然語言理解中稱為指代消解問題,但發現機器基本和瞎猜差不多。這是因為單純從句子的字面意思來看,不論怎么統計、計算和匹配,都沒有關于trophy和suitcase的空間大小的信息,機器自然無法做出判斷。人類可以迅速地做出正確的判斷,這是因為人在判斷時引入了大腦中的常識知識,即:trophy通常是被裝入suitcase攜帶的,所以suitecase肯定要比trophy大。在后面的章節中,會專門介紹在自然語言處理模型中植入知識圖譜的方法。

圖1-12 語言理解對外源知識的依賴
1.3.5 知識圖譜擴展視覺理解的深度和廣度
知識圖譜對于凡是涉及語義理解的任務都有作用。除了文本語義的理解,在圖像、視頻等視覺理解任務中,知識圖譜也能發揮作用。如圖1-13所示,我們看到一只海鳥,圖片本身所包含的信息顯然是有限的。如果能引入知識圖譜中關于海鳥的語義描述、關聯的其他鳥等,就能大幅增強圖片處理的深度和廣度。比如,可以利用外源知識庫中相關的鳥類信息來提升相似圖片的檢索效果。

圖1-13 知識圖譜擴展視覺理解的深度和廣度示例
1.3.6 知識圖譜輔助IoT設備互聯
語義和知識在物聯網領域有很多的應用場景。OneM2M是物聯網領域的一個國際聯盟,它有一個獨立的工作組,專門為物聯網設備數據定義本體。這些物聯網本體被用來封裝設備數據的語義,從而提升物聯設備之間的語義互操作能力。
例如,一個溫度可能是人的體溫,也可能是一個設備的溫度,進一步理解這個溫度數據還需要知道是在什么時間、什么位置等,豐富的語義描述將大大提升物聯設備數據的利用效率,終極的萬物互聯是設備通過規范化的語義實現數據層面的互聯,如圖1-14所示。

圖1-14 IoT設備數據的本體抽象與語義封裝
1.3.7 知識圖譜支持下的大數據分析
知識圖譜也在大數據分析應用中發揮重要作用。著名的情報大數據公司PALANTIR有一個核心技術叫動態本體(Dynamic Ontology),它允許數據分析人員根據自己的需要來定制構建一個本體。例如在一個反恐場景中,需要定義恐怖分子、恐怖事件和高危區域等基本概念以及它們之間的語義關系。
PALANTIR再通過機器學習算法和自然語言處理技術從各種數據來源獲取信息并灌入本體中。事實上,很多領域的大數據分析問題并不需要構建很復雜的算法模型,如果能根據分析的需要構建一個知識圖譜,大部分大數據分析問題都可以轉化為一個知識圖譜上的查詢問題。當然,有了圖結構的數據,也可以更加容易地在知識圖譜上疊加各種圖算法,例如圖嵌入算法、圖神經網絡等。這些算法利用知識圖譜中存在的關系進一步挖掘和推理未知的關系,從而大幅提升數據分析的深度和廣度。
知識圖譜技術源于互聯網,最早落地應用的也是搜索引擎、智能問答和推薦計算等領域。知識圖譜支持通過規范化語義集成和融合多源數據,并能通過圖譜推理能力支持復雜關聯大數據的挖掘分析,因此在大數據分析領域也有廣泛應用。對于語言理解和視覺理解,外源知識庫的引入可以有力地提升語義理解的深度和廣度。