- 知識圖譜:方法、實踐與應用
- 王昊奮 漆桂林等
- 1625字
- 2020-04-03 12:54:48
1.3 知識圖譜的價值
知識圖譜最早的應用是提升搜索引擎的能力。隨后,知識圖譜在輔助智能問答、自然語言理解、大數據分析、推薦計算、物聯網設備互聯、可解釋性人工智能等多個方面展現出豐富的應用價值。
1.輔助搜索
互聯網的終極形態是萬物的互聯,而搜索的終極目標是對萬物的直接搜索。傳統搜索引擎依靠網頁之間的超鏈接實現網頁的搜索,而語義搜索是直接對事物進行搜索,如人物、機構、地點等。這些事物可能來自文本、圖片、視頻、音頻、IoT設備等各種信息資源。而知識圖譜和語義技術提供了關于這些事物的分類、屬性和關系的描述,使得搜索引擎可以直接對事物進行索引和搜索,如圖1-5所示。

圖1-5 知識圖譜輔助搜索
2.輔助問答
人與機器通過自然語言進行問答與對話是人工智能實現的關鍵標志之一。除了輔助搜索,知識圖譜也被廣泛用于人機問答交互中。在產業界,IBM Watson背后依托DBpedia和Yago等百科知識庫和WordNet等語言學知識庫實現深度知識問答。Amazon Alex主要依靠True Knowledge公司積累的知識圖譜。度秘、Siri的進化版Viv、小愛機器人、天貓精靈背后都有海量知識圖譜作為支撐。
伴隨著機器人和IoT設備的智能化浪潮的掀起,基于知識圖譜的問答對話在智能駕駛、智能家居和智能廚房等領域的應用層出不窮。典型的基于知識圖譜的問答技術或方法包括:基于語義解析、基于圖匹配、基于模板學習、基于表示學習和深度學習以及基于混合模型等。在這些方法中,知識圖譜既被用來輔助實現語義解析,也被用來匹配問句實體,還被用來訓練神經網絡和排序模型等。知識圖譜是實現人機交互問答必不可少的模塊。
3.輔助大數據分析
知識圖譜和語義技術也被用于輔助進行數據分析與決策。例如,大數據公司Palantir基于本體融合和集成多種來源的數據,通過知識圖譜和語義技術增強數據之間的關聯,使得用戶可以用更加直觀的圖譜方式對數據進行關聯挖掘與分析。
知識圖譜在文本數據的處理和分析中也能發揮獨特的作用。例如,知識圖譜被廣泛用來作為先驗知識從文本中抽取實體和關系,如在遠程監督中的應用。知識圖譜也被用來輔助實現文本中的實體消歧(Entity Disambiguation)、指代消解和文本理解等。
近年來,描述性數據分析(Declarative Data Analysis)受到越來越多的重視。描述性數據分析是指依賴數據本身的語義描述實現數據分析的方法。不同計算性數據分析主要以建立各種數據分析模型,如深度神經網絡,而描述性數據分析突出預先抽取數據的語義,建立數據之間的邏輯,并依靠邏輯推理的方法(如DataLog)來實現數據分析。
4.輔助語言理解
背景知識,特別是常識知識,被認為是實現深度語義理解(如閱讀理解、人機問答等)必不可少的構件。一個典型的例子是Winograd Schema Challenge(WSC競賽)。WSC由著名的人工智能專家Hector Levesque教授提出,2016年,在國際人工智能大會IJCAI上舉辦了第一屆WSC競賽。WSC主要關注那些必須要疊加背景知識才能理解句子語義的NLP任務。例如,在下面這個例子中,當描述it是big時,人很容易理解it指代trophy;而當it與small搭配時,也很容易識別出it指代suitcase。
The trophy would not fit in the brown suitcase because it was too big(small).What was too big(small)?
Answer 0:the trophy Answer 1:the suitcase
這個看似非常容易的問題,機器卻毫無辦法。正如自然語言理解的先驅Terry Winograd所說的,當一個人聽到一句話或看到一段句子的時候,會使用自己所有的知識和智能去理解。這不僅包括語法,也包括其擁有的詞匯知識、上下文知識,更重要的是對相關事物的理解。
5.輔助設備互聯
人機對話的主要挑戰是語義理解,即讓機器理解人類語言的語義。另外一個問題是機器之間的對話,這也需要技術手段來表示和處理機器語言的語義。語義技術也可被用來輔助設備之間的語義互聯。OneM2M是2012年成立的全球最大的物聯網國際標準化組織,其主要是為物聯設備之間的互聯提供“標準化黏合劑”。OneM2M關注了語義技術在封裝設備數據的語義,并基于語義技術實現設備之間的語義互操作的問題。此外,OneM2M還關注設備數據的語義和人類語言的語義怎樣適配的問題。如圖1-6所示,一個設備產生的原始數據在封裝了語義描述之后,可以更加容易地與其他設備的數據進行融合、交換和互操作,并可以進一步鏈接進入知識圖譜中,以便支持搜索、推理和分析等任務。

圖1-6 設備語義的封裝