- 工業級知識圖譜:方法與實踐
- 張偉 陳華鈞 張亦弛
- 1878字
- 2021-10-15 18:54:47
1.1 知識圖譜概述
近年來,得益于大數據的發展和云服務算力的大幅提升,使得基于全網信息、結構化客觀世界的海量知識成為可能;此外,大規模結構化的知識建設,能夠大幅提高互聯網獲取信息的效率。具體到特定行業,數字化行業知識有助于實現業務決策自動化,同時能夠使得業務決策做到全局優化。正是在技術進步和工業應用的雙輪驅動下,知識圖譜在工業界如火如荼地建設中。當下,從整個產業來看,知識圖譜大致分為通用知識圖譜和行業知識圖譜兩大類。建設知識圖譜、使用知識圖譜是一個系統化的工程,涉及自然語言處理、語義網、邏輯推理等學術前沿科研課題。更重要的是,無論是通用百科類知識,還是行業的深度知識,都是海量的知識體系。知識規模的龐大使得知識圖譜的構建工作涉及圖數據庫、海量知識管理工具、大數據生產系統等大規模工程化系統的建設。最后,知識往往來源于大數據的挖掘、與現有知識庫的融合和多角色專家的輸入,因此,知識圖譜的建設需要大量的人工參與,復雜度非常高。
1.1.1 通用知識圖譜
最早的知識圖譜工業級應用是搜索引擎。主流的搜索引擎均建設有超大規模的通用知識圖譜,以支持交互式搜索。另外,諸如天貓精靈等智能音箱提供基于語音和自然語言的交互式問答,更加依賴知識圖譜提供的精準答案。這些知識圖譜通常包括現實世界的常識,用戶能用此查詢人物、地點、事物和組織的描述和聯系。
通用知識圖譜中實體、關系和屬性的類型是在本體中定義的。包含約幾十億個主要實體,上百億個三元組知識,包括諸如人物、地點、事物、組織和位置等類的實體,以及用戶可能采取的行動(例如播放視頻或購買歌曲)等。為了生成現實世界的知識,需要從多個來源提取數據,這些數據可能非常嘈雜且相互矛盾,必須將其整理為單個、一致且準確的知識體系。用戶看到的最終數據其實是冰山一角——背后隱藏著大量復雜的工作。例如,僅維基百科上就有200個有關威爾·史密斯(Will Smiths)的實例。威爾·史密斯在搜索引擎的知識加工結果由41家網站上的10800個事實整合而成。通用知識圖譜主要來源于現有知識庫、結構化知識的融合。此外,具備時效性的知識往往來源于互聯網半結構化的文本數據的挖掘,雖然這部分知識比知識融合的知識量小,但由于其時效性強,往往承載更多的搜索、智能問答流量。
通用百科圖譜主要解決全網信息結構化的問題。知識圖譜團隊把全網信息中頭部幾千萬的實體及其相應淺層的知識,以屬性值、屬性項三元組結構化的方式表示出來。雖然大部分知識來自現存實體庫的融合,但大部分時效性很強的知識存在于新聞等文本中,所以在這個過程中采用信息抽取技術就非常關鍵。最終,知識圖譜在搜索、問答和推薦的場景中可以基于結構化信息直接給出答案,相較于用關鍵詞匹配召回、返回半結構化網頁,可以極大地縮短網絡用戶獲取資訊的路徑。在這些應用場景中,往往把知識圖譜里的百科知識直接透傳給用戶,涉及的推理或邏輯語言描述的規則類知識比較少。
1.1.2 行業知識圖譜
以商品知識圖譜為例,知識圖譜中的實體也可以將不同的產品聯系起來。如果一位用戶搜索了關于利昂內爾·梅西(Lionel Messi)的紀念品,而知識圖譜中表明梅西效力于巴塞羅那足球俱樂部,那么對于該俱樂部的相關商品,比如其他效力于同一家俱樂部的著名球員的紀念品,用戶可能也會感興趣。其他相關商品還包括一些基于足球的產品,例如簽名襯衫、條帶、靴子和足球。這種想法也可以從體育擴展到音樂、電影、文學、歷史,以及更多的其他領域。
理解商品自身以及商品之間的關系也和理解實體之間的關系一樣重要。能夠區分一個商品是iPhone而另一個是iPhone手機殼顯然是很重要的,但是不同的手機殼能夠適用于某些型號的手機,而與其他型號的手機不適配,所以需要能夠對零件以及配件的尺寸進行建模。理解商品以及它的一些相關產品之間的關系也很重要。比如,哪些商品是同一商品的不同款式?它們在尺寸、容量、顏色上有沒有區別?還是說它們有大部分相同的特性,但可能是不同的品牌或顏色?系統還需要理解有些商品往往是捆綁銷售的,比如捆綁包、套件,抑或是成套的衣服。
總之,行業知識圖譜主要解決領域信息標準化的問題。以商品領域為例,商品信息天生就是以知識卡片的形式組織的,所以電商領域的商品信息從知識生產的源頭就已經達到了百科知識圖譜的水平。也正是因為這個原因,行業知識圖譜往往要求三元組事實類的知識表達要標準化,從而可以約束眾多的知識生產源頭。此外,由于行業知識圖譜往往涉及領域里深度的知識,單靠三元組的表示形式也是不夠的,許多領域規則需要用邏輯語言描述,因而在行業知識圖譜構建和應用的過程中,推理就顯得非常關鍵。推理可以基于規則離線生產新的知識,也可以在線推理支持復雜查詢。