官术网_书友最值得收藏!

2.4 構建商品知識體系

知識建模的最終目的是要形成整個領域的知識體系。大千世界,各個領域會沉淀出自身對應的知識,例如生物學知識覆蓋植物、動物和微生物,社會科學知識涉及社會現(xiàn)象和人類行為,電商領域知識則需要覆蓋消費品的各種品類等。在知識圖譜中,不僅包含了具體的知識數(shù)據(jù),還包括了對這些知識數(shù)據(jù)描述定義和管理的系統(tǒng),這個系統(tǒng)被稱為知識體系(Schema)或者本體(Ontology)。上文中介紹的知識建模,正是在構建知識體系,也可以稱為構建知識體系的表達方式。通過構建知識體系,既方便體系化地表達行業(yè)知識,也易于知識管理。完整的知識圖譜的知識體系(Schema)不僅僅包含對領域知識概念的分類,而且完整地包含了概念分類、概念表達和概念關系等定義模塊,是一套存儲和管理知識圖譜中的概念知識的結構。在本節(jié)中,將枚舉經典的知識體系,介紹開源知識庫案例,并重點介紹與電商領域相關的知識圖譜知識體系。

2.4.1 通用域知識圖譜

通用域知識庫的建設由來已久,例如SUMO誕生于“知識工程”(Knowledge engineering)倡導先驅費根鮑姆(Edward Albert Feigenbaum)創(chuàng)辦的Teknowledge公司。是一套標準的高層次的知識本體,它不包含特殊領域概念。其目標是讓各類特殊領域以SUMO思想和概念結構為基礎,衍生出各領域的知識體系。這套體系促進了信息和數(shù)據(jù)的互通,并可以支持信息檢索、自然語言處理和知識推理等多種任務。

提到知識圖譜(Knowledge Graph)就不得不提Google公司。Knowledge Graph概念由Google公司在2012年推向大眾視野,最初主要是被Google公司用來優(yōu)化搜索引擎,后來知識圖譜才慢慢地被用來泛指各種大規(guī)模的知識庫。這段歷史與Freebase密不可分。Freebase是由硅谷的MetaWeb公司在2005年創(chuàng)建的一個大規(guī)模的連接數(shù)據(jù)庫,基于社區(qū)成員協(xié)作的方式構建,其知識體系包含了例如Wikipedia、MusicBrainz、Fashion Model Directory、NNDB及社區(qū)用戶數(shù)據(jù)等多種數(shù)據(jù)源抽取的概念及本體定義。

2012年,維基百科的母公司Wikimedia啟動了基于Creative Commons Attribution協(xié)議的項目——WikiData,打造一套基于知識圖譜三元組為存儲形式的,開源的、支持多種語言、任何人和設備都可參與修改的大規(guī)模鏈接數(shù)據(jù)庫。WikiData借鑒Wikipedia的眾包合作方式,支持由眾包和專家參與構建。至今,WikiData已經成功沉淀了大量的知識體系條目,并還在不斷壯大。

DBpedia是世界上最大的多領域知識本體,Linked Data的一部分,通過從各種維基媒體項目創(chuàng)建的信息中提取結構化內容,借助互聯(lián)網挖掘,以機器可讀的形式存儲知識,并提供信息收集、組織、共享和搜索等。在2014年,DBpedia就發(fā)布了包含30億條三元組的版本,實體包含人、地點、唱片、電影、游戲、組織、物種和疾病等。DBpedia知識庫的用例非常廣泛,包括Web搜索、維基百科搜索、企業(yè)知識管理,甚至包含媒體,例如BBC、Reuters、NEW YORK TIMES等。

YAGO是一套從2007開始,由巴黎電訊科技大學聯(lián)合德國馬普研究所構建的一種基于鏈接數(shù)據(jù)庫的開放語義知識庫。它不僅是IBM Watson的后端知識庫之一,還支持了Freebase、DBpedia、UMBEL Ontology、SUMO Ontology等項目,為它們提供知識庫支持。YAGO作為基于Creative Commons Attribution協(xié)議的聯(lián)合項目,集成大量數(shù)據(jù)源,包含WordNet、Wikipedia、GeoNames等,其三元組知識總量已超過億級別。

Concept Graph是由微軟亞洲研究院發(fā)布推出的Microsoft Concept Graph(微軟概念圖),它用來幫助機器理解人類交流,并且支持語義計算。其背景是為了處理人類與機器在語言理解上存在差別的問題,由于人類意識中包含了大量常識性的概念。Microsoft Concept Graph通過維護這部分常識性概念來支持上層應用,并將這些概念存儲在Probase知識數(shù)據(jù)庫中。除了通用型概念,微軟概念圖還維護了大量通用數(shù)據(jù)庫比較少見的領域知識,例如“抗帕金森治療”“基礎的水彩技巧”“名人婚紗設計師”等。除了概念,Microsoft Concept Graph包含了大量實體空間(每條知識概念都包含一系列的實體)。整個Microsoft Concept Graph知識體系有著廣泛的應用,例如自動問答系統(tǒng)、在線廣告系統(tǒng)、推薦引擎、搜索引擎、聊天機器人及人工智能系統(tǒng)等,這些自然語言處理應用都可以借鑒。

由中國中文信息學會語言與知識計算專委會發(fā)起的OpenKG項目,持續(xù)更新、收集、整理、匯聚國內外主要的開放知識庫,直接提供開放的API或Dump服務。目前在百科類,OpenKG已經聚集齊了國內最主要的百科知識圖譜。在這些百科的知識庫的基礎之上,持續(xù)拓展到其他垂直領域,例如金融、醫(yī)療、電商和氣象等。其他的開放知識圖譜還有很多,例如由羅馬大學計算機科學系的計算語言學實驗室創(chuàng)建的BabelNet,它是多語言百科全書式的字典和語義網絡。此外還有由中國復旦大學知識工場實驗室研發(fā)并維護的大規(guī)模通用領域結構化百科CN-DBPeidia等。

2.4.2 阿里商品域知識體系

在電商領域,需要管理海量的商品信息,并支持商品的搜索、商品域問答、商品知識推理等相關任務。因此,構建商品域的整個知識體系非常重要。阿里巴巴集團作為服務全球的電商平臺,支持數(shù)十億級商品的流通,構建了阿里商品知識圖譜(Alibaba Product Knowledge Graph)。截至目前,阿里商品知識圖譜沉淀了近52.2億個商品相關實體,三元組數(shù)量級達到2000億,其中Schema或本體層的實體類型數(shù)達到62種,關系類型數(shù)達到35種,規(guī)則數(shù)達到370.1萬。整個商品知識圖譜構成了一個規(guī)模巨大的商品域知識體系。

值得一提的是,在商品領域,知識圖譜的知識體系也不是單一的。在大而全的基礎商品知識圖譜之外,各個垂直領域也可以沉淀更聚焦的領域知識圖譜。例如盒馬鮮生聚焦于生鮮領域,其打造的盒馬垂直圖譜在生鮮品類的Schema定義上相比于通用領域的商品知識圖譜可以更加細化,如圖2-8所示。

這里展示了部分阿里盒馬構建的生鮮知識圖譜的知識體系(Schema)作為案例。通過定義本體,基于本體支持各類實體類型、實體表達、實體關系的存儲管理,組織知識圖譜的三元組信息。并且在盒馬垂直圖譜中,重點突出了菜譜、食材、營養(yǎng)成分等具有領域特色的實體。

圖2-8 盒馬知識圖譜的知識體系

1.商品類目體系

在阿里商品知識圖譜Schema體系中,還有一個重要的模塊——類目體系,這是阿里管理商品的重要基礎,也是阿里商品知識圖譜的重要組成。類目體系,顧名思義,是商品分類系統(tǒng),也就是整個商品本體體系(Product Ontology)。如同前文中提到的圖書分類,電商平臺為了管理好各種商品,會持續(xù)維護和升級商品分類體系,使之覆蓋所有需要的品類,并且保持各個品類之間粒度的協(xié)調和品類差異的區(qū)分。

如圖2-9所示,阿里的商品分類體系設計了多種層級(cate_path),呈現(xiàn)出從一級類目、二級類目、三級類目,一直到最細粒度的葉子類目的樹狀形式,方便歸類和管理。一般類目層級會從1層到6層不等,大部分在3層左右最為常見。例如:女裝→褲子→休閑褲。多層級樹狀類目體系作為商品知識庫中本體的重要組成部分,管理著大量的商品實體。

不同商業(yè)組織的商品類目體系也可能有所不同,例如國際電商平臺亞馬遜(Amazon)、沃爾瑪(WalMart)、阿里巴巴(Alibaba)都各自有自己定義的一套或多套類目系統(tǒng),分別靈活支持各自的業(yè)務需求。即使是在阿里經濟體內部,由于業(yè)務形態(tài)的多樣化,也會存在多套差異化的知識體系,例如:方便前臺銷售導購和消費者交互的前臺類目系統(tǒng)、便捷后端商品管理的后臺類目系統(tǒng)、適合于新零售線下使用的餓了么類目和盒馬類目、適用于國際化業(yè)務的AliExpress多語言類目、為阿里健康服務的健康類目、支持本地生活的飛豬旅行商品類目,以及很多其他類型。這些品類都有各自的定義方式和特點,并在持續(xù)建設和升級中滿足商業(yè)市場的訴求。

圖2-9 阿里商品類目體系(部分)

此外,阿里商品知識圖譜還采用了尼斯分類體系。尼斯分類作為商標類目分類表,是根據(jù)《商標注冊用商品和服務國際分類尼斯協(xié)定》制定的。尼斯協(xié)定把商品分為34大類,其中服務項目分為11大類,如圖2-10所示。這種商品與服務分類法為商標檢索、商標管理等提供了很多便利。

《商標注冊用商品與服務國際分類尼斯協(xié)定》是于1957年6月15日在法國尼斯簽訂的協(xié)議,并在1961年4月8日生效。我國使用國際商標注冊用商品分類法是從1988年11月開始的。我國開始使用國際服務分類法,是從1993年7月1日實施《中華人民共和國商標法修正案(草案)》后。1994年8月9日我國正式加入尼斯協(xié)定。

尼斯分類表包含兩部分,一部分是按照字母順序排列的商品和服務分類表,另一部分是按照類別排列的商品和服務分類表。

圖2-10 尼斯分類體系UNSPSC(部分)

如圖2-11所示,尼斯分類體系將商品和服務按照1~45類的順序排列。給每類賦予類別號和標題,每類的標題總結概述本類所包含商品的特征范圍,最后列出本類包括的所有商品或服務項目,每項商品或服務均有一個順序號,以便查找。此外,為了解決本類主要包括哪些商品,本類與相關類別的商品如何區(qū)別,如何劃分邊緣商品的類別這些問題,在各個分類上有專門的注釋和說明,這個注釋對劃分一些易混淆商品的類別有很大幫助。

商品和服務分類表還有另一部分,即按字母順序排列的分類。在全球,世界知識產權組織出版了按英文、法文順序排列的商品和服務分類表。我國商標主管機關也編排印制了按漢語拼音順序排列的商品和服務分類表。使用這個表查閱一般商品的類別就像查字典一樣方便。例如,對于錄像機生產商或電視機生產企業(yè),只要按照漢語拼音順序,很容易就能查到這兩種商品都屬于第16類,從而便捷地在這兩種商品上申請商標注冊。

圖2-11 尼斯分類體系UNSPSC(部分)

2.商品屬性體系

此外,阿里商品知識體系中除了多層級類目,還維護著各品類下的屬性體系,用以表達各個類目對應商品實體的詳細屬性信息,它包含了屬性項(Property)和屬性值(Value)兩個組成模塊,并支持品類下多屬性聯(lián)合表達。

如圖2-12所示,由屬性體系參與支持商品知識表示,并且通過對各種品類進行特殊定義和約束,實現(xiàn)差異化表達的訴求。例如,在電商領域的服裝品類中,實體信息關注材質成分、款式和尺寸等知識信息。而對于食品生鮮品類,重點關注的是營養(yǎng)成分、是否有機、產地和保質時長等屬性組。因此,阿里巴巴設計出多層級類目結合屬性項、屬性值組的結構化的商品知識表達形式。

圖2-12 阿里巴巴商品屬性知識體系(部分)

如圖2-13所示,手機品類下某商品實體有多個屬性項信息,例如品牌信息(Property_name:品牌,Value_name:Apple/蘋果)、攝像頭類型及存儲容量等,該品類下的商品實體的品牌等具體參數(shù)便可通過這樣結構化的方式存儲和表達。這里值得注意的是,對于屬性項存儲容量,通過支持多值表達,呈現(xiàn)64GB、256GB和512GB,適應多值應用場景。

圖2-13 商品屬性樣例

由此,差異化的知識表達通過這種結構和管理方式得以實現(xiàn)。此外,在實踐中為了讓知識體系下的數(shù)據(jù)生產和表達更標準、更規(guī)范,需要對細分品類的屬性值系統(tǒng)做限制和管控。例如,阿里巴巴集團構建品牌知識庫,規(guī)范品牌信息的表達,避免出現(xiàn)“蘋果”“蘋果牌”“apple”“Apple Iphone”等多種形式的泛化表達,用同一套標準體系“Apple/蘋果”規(guī)范知識的呈現(xiàn)。這樣做的好處有多種,首先是提升消費體驗,讓消費者看到的信息更加規(guī)范。其次是方便系統(tǒng)化管理,在知識圖譜體系中,對于同樣的品牌屬性值,可以用同一套知識存儲。更重要的是,通過標準化的表達,可以方便集團對商品進行管控,治理虛假冒用的行為,對于商品信息做嚴格校驗,保護消費者權益。例如,如果有不法商家售賣的商品并非蘋果產品,卻想要盜用“Apple/蘋果”品牌作為自己的商品提升銷量,當該商家為商品選擇品牌的時候,就會有品牌相關的資質審核和管控系統(tǒng)校驗和干預,沒有相應授權則無法通過系統(tǒng)?;谶@種形式,通過阿里的類目屬性知識體系,能夠實現(xiàn)對全量商品實體的知識表達和管理。并借助技術和專家的持續(xù)建設,使得這個體系保持更新迭代,適應日新月異的使用訴求。

3.商品編碼體系

GS1(Globe Standard 1)作為國家和國際管理貨品編碼(條碼)的組織,擁有全球跨行業(yè)的產品、運輸單元、資產、位置和服務的標識標準體系和信息交換標準體系,可以讓產品在全世界都能夠被掃描和識讀。GS1作為組織機構,同樣需要一套標準化的知識體系(UNSPSC)管理所有的相關實體的知識。

如圖2-14所示,GS1不僅管理貨品,還覆蓋運輸單元及資產,其涉及的實體品類豐富。要想構建和維護一套實用的知識體系管理所有的實體信息,離不開類目系統(tǒng)。這里通過Segment、Family、Class、Commodity細化各個細分品類,并輸出多語言體系,支持全球化的應用場景。

圖2-14 GS1分類體系UNSPSC(部分)

4.門店域知識體系

在消費者的購物鏈路中,涉及大量的線上線下商品的聯(lián)動。在線上,商品以及人的數(shù)字化已經相對比較成熟,但是對于線下的消費場景,如何做好線下場的數(shù)字化和智能化,是一個比較大的挑戰(zhàn)。目前,線下場主要包括兩塊,一塊是商戶或門店,在導航場景下,業(yè)界又稱POI(point of interest,興趣點),另外一塊是在履約過程中經常使用的收貨地址等。對于美團、口碑、餓了么等,線下場的數(shù)字化和智能化與線下的服務體驗息息相關。比如,如果線下門店的地址錯誤,消費者就無法準確找到對應的門店位置。如果會員的收貨地址不對,物流配送就無法準確配送,導致配送資源的浪費。線下場牽扯到大量的地理知識,包括地理編碼的標準、行政區(qū)劃的標準以及類目屬性體系。這幾個屬性是門店的核心字段,通常在知識融合和知識獲取階段都會進行槽填充。本書會分三個小節(jié),對這些基礎知識進行介紹。

(1)地理編碼格式(火星坐標系、百度坐標系、WGS-84坐標系)

要實現(xiàn)門店和地址的數(shù)字化,需要對位置進行精準的表達。首先介紹如何用地理編碼表示地理坐標。由于地球是一個球體,地理坐標系也稱為球面坐標系,目的是將本不是橢球體的地球進行橢球體化,從而形成球面坐標體系。在國際標準中,地理坐標系就是WGS-84坐標系。在現(xiàn)實場景中,各個國家為了反映本國所在區(qū)域地球的真實形狀,都會采用不同的數(shù)學模型對地球進行橢球體化,比如就存在北京54坐標系、西安80坐標系等不同的坐標系。在實際的應用中,主要采用的是WGS-84標準,這一標準也被Google地圖等地圖提供商廣泛使用。

WGS-84坐標系又名GPS坐標,一般用國際標準的GPS記錄儀記錄下來的坐標,都是GPS的坐標。GPS坐標以度、分、秒的形式表示經緯度,比如49°32'21.21,分到度的轉換單位是60,分到秒的轉換單位也是60,所以32分就是32/60°,21.21秒就是21.21/3600°,結果就是39+32/60+21.21/3600°。

另外,這里做一點補充,出于對數(shù)據(jù)安全等因素的考慮,國家規(guī)定任何一個地圖產品都不允許直接使用GPS坐標。所以,測繪局、高德地圖和百度地圖等都使用了一定的加密方式。其中,我國國家測繪局創(chuàng)立了一套GCJ-02坐標系,也叫作“火星坐標系”,這套坐標系使用在高德地圖和Google國內地圖的服務之中??梢哉f,GCJ-02是國內最廣泛使用的坐標系。百度坐標系是在GCJ-02坐標系的基礎上再次加密偏移后形成的坐標系,只適用于百度地圖。一般來說,地圖提供方均提供了不同坐標系之間的轉換方法,在構建門店知識圖譜等過程中,會大量使用到坐標系的轉換。

(2)五級行政區(qū)劃

GPS坐標提供了一種計算機可識別的地理表示方式,在實際生活中,為了方便行政管理和日常生活使用,所有的國家都會按照區(qū)域大小對區(qū)域進行一些行政職能上的劃分,稱為行政區(qū)劃。按照國家的分級,我國的地址產品主要包括四級行政區(qū)劃,五級門址庫。按照從高往低的順序,可以分為:省級行政區(qū)(一級)、地級行政區(qū)(二級)、縣級行政區(qū)(三級)、鄉(xiāng)級行政區(qū)(四級)。五級門址是在四級行政區(qū)劃上往下延展了一級,建立一個結構化、標準化的地址數(shù)據(jù),后面會加上:村、道路名&編號、建筑物&編號,同時考慮到道路的層級,增加了子路&編號。

目前,我們的地址庫中大概收錄了45902條行政區(qū)劃數(shù)據(jù),以浙江省舉例,總共有1一個省級區(qū)劃,11個地級市,分別是杭州、寧波、溫州、嘉興、湖州、紹興、金華、衢州、舟山、臺州、麗水,然后是92個區(qū),1310個鄉(xiāng)鎮(zhèn)街道。并且,值得我們注意的是,行政區(qū)劃是會經常發(fā)生變化的,舉例來說,浙江在2017年就把臨安從縣級市修改為區(qū)。

(3)門店分類標準

在知識圖譜中,分類標準是一個很重要的圖譜實體字段,能極大地方便知識的管理和知識的生產。如何構建門店的分類標準,具有非常重要的意義。目前,在門店域,類目屬性體系比較偏專家系統(tǒng),基于自動化的類目構建還沒有一個比較好的突破。目前,在實際應用中,我們把門店類目分成一個三級的樹形結構,其中包括8個一級類目,140個二級類目,267個三級類目。其中,一級類目主要包括景點、購物、美食、玩樂、旅行服務、交通等。對于二級酒店,又可以分為花園洋房、禪意酒店、親子酒店、設計主題酒店、精品民宿、文藝酒店、商務型酒店、經濟連鎖、酒店式公寓、客棧、精品酒店、蜜月酒店、青年旅舍、家庭旅館、商務會展酒店、度假酒店、頂級奢華酒店、情侶酒店、海景酒店、溫泉酒店、特色四合院、園林庭院、農家樂、高爾夫酒店、招待所、別墅和滑雪酒店。

主站蜘蛛池模板: 巴东县| 崇左市| 岑巩县| 白城市| 临江市| 建水县| 金溪县| 年辖:市辖区| 沅陵县| 乐清市| 怀化市| 鹤山市| 石河子市| 根河市| 崇仁县| 长葛市| 黄平县| 申扎县| 富蕴县| 堆龙德庆县| 孟州市| 得荣县| 上思县| 贡嘎县| 桂东县| 绩溪县| 抚松县| 天气| 安国市| 涡阳县| 丰原市| 桂林市| 扬中市| 呼和浩特市| 托克逊县| 凤山县| 莱西市| 南涧| 铜梁县| 辽阳市| 阳春市|