- 工業級知識圖譜:方法與實踐
- 張偉 陳華鈞 張亦弛
- 3921字
- 2021-10-15 18:54:47
1.2 工業級知識圖譜實戰原則
1.2.1 實踐中的典型問題
知識圖譜通過三元組的方式刻畫客觀世界。在具體的工業場景中,由于知識規模非常龐大,往往不知道如何下手。以通用知識圖譜為例,往往涉及娛樂、游戲、醫療等20多個領域的百科知識,應該先構建哪些實體?知識圖譜系統復雜,下文會介紹知識圖譜的技術架構,應該先建立哪些技術模塊?
知識圖譜系統往往容易與大數據平臺混淆,陷入大規模圖數據建設的誤區。在行業數字化快速推進的今天,各行各業都產生了知識圖譜的建設需求,也經常見到把傳統的大數據鏈接起來叫作知識圖譜,但缺乏知識構建系統、知識核心應用,導致知識圖譜也往往只是簡單的局部數據查詢應用。
知識圖譜依然存在二八原則,可以階段性投入,通過現有知識庫的融合,在建設千萬個實體的通用知識圖譜后,還有沒有必要建設數十億個長尾實體的知識庫?長尾實體建設面臨單位投入更大,但流量收益更低的問題,也關系極致的用戶體驗。如何解決投入產出比和用戶體驗的矛盾?
更重要的是,知識圖譜建設從無到有,能夠驅動搜索引擎知識卡片、語義推薦和智能問答等核心應用的實現,即使持續投入優化知識圖譜,這三種應用的業務效果往往會收斂。知識圖譜團隊的長期發展和更多應用的實現往往在一定階段后就會遇到瓶頸。同樣地,行業知識圖譜的核心應用是什么?我們也需要回答。
知識圖譜在實現上同樣面臨巨大挑戰,面臨系統架構、數據架構、角色參與、算法領域遷移和算法精度等一系列問題。
這些問題是我們在實踐中遇到的。本書也總結了工業級知識圖譜實戰原則,這些原則是基于我們的問題和場景總結出來的,讀者可以作為一些參考,也不一定適用所有的知識圖譜建設工作。
1.2.2 實戰原則
大數據初創公司往往面臨是否要在知識圖譜技術上投入的問題,要解決這一問題,首先要清楚什么是知識圖譜里的知識。如圖1-1所示,數據庫里任何一個字符都是數據,當把數據結構化并定義字段后,數據被語義化,就變成了信息。知識圖譜的知識包括這些信息,同樣包含經驗總結的知識。總而言之,建設知識圖譜的一個原則是進入知識圖譜的知識相對客觀、可公開。只有相對客觀的信息才能多源地獲取信息,才能用統一的標準校驗多源信息的一致性。例如,一些不穩定的個性化業務規則不適合作為知識圖譜的知識。只有相對公開的、非隱私的信息,才能大規模地引入多角色,人機協同構建知識圖譜。因此,只有具備這兩種信息特性的圖數據,才會納入知識圖譜里,也才適用于典型的知識圖譜系統和應用。

圖1-1 知識圖譜里的知識
確定了哪些數據可以進入知識圖譜中,也就知道了如何與大數據平臺分層。大數據平臺把系統中采集的原始數據建倉并形成信息。知識圖譜團隊基于大數據平臺的信息做知識挖掘與標準化,形成知識圖譜層。
確定了知識圖譜的定位和什么是知識圖譜的知識后,接下來要確定建立哪些知識,也就是知識圖譜如何建模,建模的過程重點確定領域、類目、屬性和關系等本體定義。具體到哪些關鍵詞,需要定義成本體,例如是否建設娛樂領域的知識,人物配偶究竟定義成屬性,還是定義成關系。回答這些問題的原則是考慮專家輸入、上層應用對知識需求的優先級、上層應用獲取知識的便利程度、存儲與查詢效率的折中、知識管理的便利程度、知識在每個本體節點的豐富度以及不同本體對知識的表達能力。
考慮這些因素后,就知道本體如何定義了,但優先建設哪些知識,按什么步驟建設,如何形成圖譜,仍然不太容易看清楚。與圖像、語音、自然語言處理等以算法為主的AI領域相比,知識圖譜不是單靠算法模型持續優化就能解決的,還需要知識運營的參與以及工程系統的搭建。最終的交付物并非是單純的算法服務,而是一個很大的知識網絡。例如搜索、推薦、對話等百科知識圖譜的應用相對清晰,基于這些應用可以對知識體系有清晰的定義,無論誰去構建目標都差不多,交付物最終也不會偏差太多。但是行業知識圖譜到底構建哪些知識是沒有太清晰的定義的。首先要確定應用場景,總體來看,阿里巴巴的商品知識圖譜正在為天貓、淘寶、Lazada、AliExpress、1688、飛豬、盒馬、天貓精靈等20多個業務線提供商品相關的知識服務和推理決策支持。典型的應用形式有:
(1)通過圖片、條碼等極少的AI識別信息,識別出商品ID;利用知識服務,快速幫助商家把線下商品基礎信息數字化;同時還能通過AI幫助商家更好地描述其商品賣點與亮點。
(2)通過知識圖譜本體間的映射,幫助商家在不同的市場間做自動的信息轉化,例如國內商家在天貓的商品,一鍵自動地在東南亞市場多個國家采用多個語言即時上線。
(3)通過推理幫助平臺自動攔截有問題的商品。
(4)通過商品知識圖譜幫助C2M,發現新需求,指導生產端生產商品。例如在新冠肺炎疫情中,我們很早就發現了印有“今天已經消毒”字樣的指示牌需求,提示有生產能力的工廠,為突發的需求量提前預警。
下面再介紹一個構建電商深度知識及其應用的完整實例。我們注意到業務上一直有一個痛點就是如何讓消費者產生跨類目的購買,同時消費者也有一個痛點就是在一些場景下不知道買哪些商品,例如孕婦待產包里應該買哪些東西?然而電商領域一直是基于生產端的視角來組織商品的,例如鞋類商品包括網球鞋、足球鞋、皮鞋等品類。基于現狀,我們創造性地提出了建立一套基于消費者需求場景的知識圖譜本體體系來組織商品。這樣能解決業務痛點,也能把知識沉淀到知識圖譜里。經過挖掘和推理,我們構建了幾十萬個事件與傳統商品類目屬性之間的關系,例如去游泳需要購買哪些品類的商品,具體到手表類目,需要商品屬性有防水功能。我們利用邏輯語言描述這些深度知識。事件又和人群、時間、地點、方式等組合,就產生了幾百萬條消費者購物場景知識,例如城市白領春運坐火車回家過年買什么?這樣就可以基于知識圖譜,實現跨類目推薦商品,可以極大地縮短消費者消費的決策路徑,給購物帶來便利。
確定了應用場景,就可以確定優先建設哪些領域的知識圖譜。這里面還有一個原則,知識圖譜建設初期要深度優先,例如對于商品知識圖譜,建設品牌領域的知識,優先結合業務把領域的知識做深,而不是根據本體定義一開始就在廣度上全部投入各個領域的建設。因為知識圖譜大部分應用需要一定的知識量,如果盲目拓寬廣度,很難在短時間內收到應用端對知識圖譜建設的反饋,容易走向歧途,還不容易掉頭。
總的來看,實戰原則關鍵點有四個。第一,最初確定了清晰的商品知識定義,允許進入知識圖譜的知識遵循客觀的(非一些業務邏輯和特定約束下的規則,而是具備普適性)、公開的(非隱私數據)、標準化的(可以協作生產)原則,同時又與商品組織、表達和發現相關,從而沉淀的知識能夠在業務應用上復用,生產的過程能夠在不同角色間公開協作。第二,業務場景定義清晰,在業務場景和業務目標的驅動下,相關人員有動力參與到知識的構建中來,知識建設的優先級也能非常清晰。第三,知識圖譜技術就像盲人摸象,每個人看到的都不一樣。在初期階段,我們對知識圖譜技術按推理、獲取、融合和建模做了清晰的定義,從而使得工程人員、算法人員能夠協作起來。第四,知識建設按領域先深后廣,能夠快速得到業務人員的驗證,收到反饋,進而修正建設中的誤區。
關于第三點,知識圖譜技術棧在初期是沒有清晰定義的,而最近越來越清晰了。對于商品知識圖譜來講,常規的知識圖譜技術模塊,例如在推理技術、知識獲取和知識融合及知識建模等領域,我們都有前沿的探索,有經典的學術任務定義。這里簡單列出涉及的學術任務,方便從業者查找文獻。知識獲取涉及命名實體識別、實體鏈指、槽填充任務;知識融合涉及本體對齊、實體對齊任務;知識推理涉及符號推理和深度推理;知識建模涉及關鍵詞挖掘、上下位詞識別任務;知識應用涉及基于知識圖譜的問答技術等。此外,還有一些基礎的算法,例如同義詞挖掘等。
具體到我們的工作還有一些特性,例如商品知識需要行業專家實時在線參與到整個知識產生的鏈路里來,需要行業專家、數據專家、算法專家三位一體,互相協作。其中,如何與算法專家協作最具挑戰性,所以如何利用推理技術解決深度學習的可解釋性成了關鍵技術,有了可解釋性,知識生產的過程就可以白盒化出來,行業專家才可以通過知識圖譜工具參與到整個構建工作中來。此外,對于工業級大規模知識圖譜構建和應用來講,樣本不均衡和新領域樣本過少是成本最高的地方,除了投入大量的標注工作,還做了很多領域遷移、眾包去噪的關鍵技術工作。
當然,有了這些實戰原則,我們仍面臨很多挑戰。
第一,對于通用知識圖譜來講,結構化的知識相對來說已經比較穩定了,一般幾千萬個或一億多個實體基本可以涵蓋現有應用形式下對知識的需求。而當人類做出一個判斷或給出一個回應時,往往除了三元組知識,還結合常識或更復雜的知識在進行推理。當下,業界知識圖譜的應用局限,主要還是大規模推理部署的缺失造成的,背后是多元的知識來源和表示形式的缺失,例如百科知識圖譜里常識和規則類知識的缺失。由于推理在通用知識圖譜使用的局限性,也成為智能交互產品的技術瓶頸,制約著用戶體驗產生跨時代的升級。
第二,對于領域知識圖譜來說,社會和行業的數字化正呈爆發式增長,越來越多的行業知識圖譜會涌現。如何快速地從0到1構建一個具備深度知識的行業知識圖譜,從技術角度依然不能快速復制,也沒有一個從生產到應用的完整工具產品可以使用。這里面有技術問題,包括算法的遷移、工具的復雜度,也有人員投入成本不可控等問題。具體來講,對于部分已經很好地數字化的領域,相較于互聯網里大量的文本信息,行業文本信息較為稀疏,對圖片、語音等多種形式的知識依賴變得更重,就需要解決多模態的技術問題,也需求解決知識圖譜技術通用性的問題。當然,對于還沒有數字化的領域,如何利用知識圖譜技術幫助行業數字化,未來的發展空間也非常大。
下面具體介紹基于這些實戰原則進行的知識圖譜系統設計。