書名: CADAL數字圖書館知識標準規范及應用研究作者名: 劉柏嵩本章字數: 8122字更新時間: 2020-02-26 16:05:22
2.2 知識組織
2.2.1 知識組織的定義
知識組織這個概念最早由美國圖書館學家布里斯(Henry Evelyn Bliss)于1929年在他的著作《知識組織與科學系統》中提出。隨后,1989年,國際知識組織學會(International Society for Knowledge Organization, ISKO)成立,該組織的使命和目標是促進知識組織系統在各領域的研究、發展和應用。知識組織的研究是在圖書館學、情報學的分類系統和敘詞表研究的基礎上發展起來的,圖書情報工作是研究知識組織的傳統領域。
目前,國內外對知識組織都沒有明確統一的定義。學者們對知識組織一直處于理論探討階段,產生了許多知識組織定義。大部分學者從廣義和狹義兩個角度對其進行了探討,如國內的學者蔣永福與付小紅從廣義上將知識組織定義為一種揭示事物的本質及它們間關系的有序結構,也就是知識的序化。換而言之,整理、揭示、加工、控制知識客體的一系列組織化過程與方法即為知識組織。王子舟與王碧漠兩位學者則分別從廣義與狹義兩個角度對知識組織的含義進行了界定。他們認為,從廣義的角度看,人們對知識(無論顯性知識還是隱性知識)所進行的整理、加工、控制、揭示等一系列組織活動與過程即為知識組織;從狹義的角度看,就圖書館學而言,對客觀知識進行分類并整序的過程即為知識組織。學者盛小平、湯姍紅、范宇中、胡生林、吳錫云、姚慧君等也分別從廣義或狹義的角度對定義做了類似的界定。李秀云通過總結上述定義指出,“知識組織就是與知識組織有關的方法與理論”。此外,還有一部分學者從另一些角度對知識組織進行了定義,如學者顧樂進從文獻揭示這一角度對知識組織進行了定義,圖書館學界所指的知識組織,是指關于文獻檢索量和文獻閱讀量與知識獲取量的最佳比值。學者蘇麗則從知識組織的目標這一角度,認為知識組織是通過提供文獻、評價科學文獻并進行系統表述以便生成新的有利于運用與獲取有序知識單元的處理系統。而學者陳景增則根據圖書館知識組織的主要方式、功用與特點,將圖書館的特色知識組織劃分為三個層次:一是知識系列組織層,指各知識單元經過分類、編目、標引及加工處理后的歸類與排序,這一層次是通常意義上所說的知識組織;二是知識宏觀布控組織層,即圖書館知識組織中的典藏布局;三是知識本體調配組織層,即知識重組。再從國外來看,Birger Hj rland指出,就狹義而言,知識組織不僅包括知識組織系統,如書目記錄、分類系統(DDC、LCC及UDC)、敘詞表、語義網,還包括知識組織的過程(knowledge organizing processes, KOP)。換言之,知識組織系統可以涵蓋所有知識,也可能僅限于某一領域或某種文件類型。Gail Hodge指出知識組織系統包括所有組織信息類型的系統及推動知識管理的系統
,還指出知識組織系統用來組織館藏資料以達到檢索及管理的目的,它在館藏資料與信息需求和使用者之間搭建了一座橋梁。
盡管各位學者對知識組織的定義由于研究角度的不同而不盡相同,但總結以上敘述可以得出,整序、控制、提供是知識組織的核心點。
2.2.2 知識組織的方式方法
關于知識組織的方式,國內的研究主要有以下兩種方式:第一種是基于知識單元的知識組織,即抽出知識單元或者知識單元集合中的知識因子,并對知識單元或因子進行形式上的組織。這主要從兩個方向展開:一是向用戶提供“純信息”,即向用戶提供他們所需的知識、信息;二是從人類創造過程利用知識的特點出發來組織知識,建立知識系統。第二種是以知識關聯為基礎的知識組織方式。以知識關聯為基礎的知識組織是指在相關領域中提取大量知識因子,并對其進行分析與綜合,形成新的知識關聯,從而產生更高層次上的綜合知識產品。由于改變了知識因子間的原有聯系,因此其結果可以提供新知識,也可以提供關于原知識的評價性或解釋性知識。
關于知識組織的方法,蔣永福做了系統的研究,認為根據知識存在形態的不同,可以將知識組織方法劃分為客觀知識的組織方法與主觀知識的組織方法;根據知識內部的不同結構特征,可以將知識組織方法劃分為知識關聯組織方法與知識因子組織方法;根據知識組織所包含的語言學原理,可以將知識組織方法劃分為語義組織方法、語法組織方法以及語用組織方法三種。胡亞軍與劉魯紅兩位學者在研究中總結認為:從信息描述角度來看,主要有對數字對象、元數據等的相關研究;從信息分類角度來看,主要有對主題法、分類法、主題分類一體化的相關研究;從自然語言理解角度來看,主要有對自動分類技術、自動標引等的相關研究和試驗,并指出近年來,在概念層次上,眾人關注的焦點主要集中在語義網、主題地圖以及本體三種方法上。盧曉惠與陳麗兩位學者通過對蔣永福的理論研究進行拓展,從技術角度指出知識組織的研究方法有數據倉庫法、面向對象法和知識發現法。
2.2.3 知識組織體系的類型
Gail Hodge在System of Knowledge Organization for Digital Libraries:Beyond Traditional Authority Files一文中指出,根據知識組織體系的結構和復雜性、術語之間的關系以及歷史性功能來劃分,可以將知識組織體系劃分為三種類型:術語列表(term lists),強調經常被定義的術語詞表;分類和編目體系(classification and categories),強調創建一個學科(主題)體系;關系列表(relationship lists),強調術語和概念之間的聯系。術語列表又進一步細分為規范文檔(authority files)、術語表(glossaries)、詞典(dictionaries)以及地名辭典(gazetteers)。分類和編目體系進一步細分為主題標目表(subj ect headings)和分類表(classification schemes, taxonomies, categorization schemes)。關系列表進一步劃分為敘詞表(thesauri)、語義網(semantic networks)以及本體(ontology)。
2.2.3.1 術語列表
(1)規范文檔。規范文檔是指用于控制同一人或事物的不同名稱,或者為某個特別領域中專用名詞的詞匯單。把正式采用的標目形式與個人或團體責任者、題名、主題等其他未被采用的名稱形式,通過參照方法集中起來所做的全面記錄和說明,如國家的名稱、個人或組織。這類型的知識組織工具一般不包括復雜結構或深度組織,可以按照字母的順序或按照一個簡單的分類體系進行組織,非指示術語也可以連接到正式術語。
(2)術語表。術語表通常是一個具有定義說明的術語列表,其中的術語一般被界定在特定的環境中,這個環境可以是專業的學科領域,也可以是特定的工作。
(3)詞典。詞典是指一個按照詞匯字母順序組織的具有定義說明的術語列表。它比術語表的范圍更廣,能夠解釋詞語的不同意思,還可以提供該詞語的原始信息、不同的拼寫、形態等內容。
(4)地名辭典。地名辭典是指專門的地名的術語列表。傳統的地名辭典一般作為地圖集或圖書的索引,列表中的每個實體都按照其特征進行定義,如河流、城市或者學校等。
2.2.3.2 分類和編目體系
(1)主題標目表。它提供一系列受控術語來表達館藏的主題款目。雖然主題標目表的結構很淺顯,并且具有結構上的限制,但是它能夠擴展并覆蓋學科領域,在使用的時候,通常要和其他專業詞表相結合以增強其專業性。
(2)分類表。這類術語表有很多種,如《杜威十進分類法》(DDC)、《國際十進分類法》(UDC)、《國會圖書分類法》(LCC)等,這些術語表通常可以交替使用。
3)關系列表。關系列表進一步劃分為敘詞表、語義網以及本體,這些術語表將在下一節中詳細闡述。
Broughton V, Hansson J, Hj?rland B等認為Gail Hodge的知識組織體系劃分的類型不夠全面,于是列舉出了狹義上圖書情報界的知識組織體系類型:列舉式分類法(DDC, UDC及LCC)、分面分類法(如Bliss 2nd ed.等)、主題標目表(如LCSH)、以全文檢索為基礎的系統、以敘詞表為基礎的系統、文獻計量(bibliometric maps)、搜索引擎算法、檔案系統(以來源原則為基礎)、本體或實用分類法(ontology)、語義網(semantic networks)、主題地圖(topic maps)。
2.2.4 新型的知識組織工具
知識組織工具也稱為知識組織系統或知識組織體系,是用于進行知識組織的各類規范和方法的統稱,是獲取、利用知識的重要手段。知識組織工具是在文獻資源數量激增,用戶對資源的需求愈來愈迫切的情況下出現的。為了滿足這種需求,學者們對知識組織工具進行了細致的研究。傳統的知識組織工具主要可以分為兩大類:一類簡稱為分類法,如圖書分類表;另一類簡稱為主題法,其代表主要有主題詞表和敘詞表。分類法主要著重于建立知識的結構,而主題法主要著重于詞匯的控制。隨著網絡信息資源呈幾何級數的增長,分類法和主題法愈來愈難以滿足人們將大量雜亂無序的信息和知識進行序化的需求。于是,新型的知識組織工具就出現了。網絡環境下新出現的知識組織工具主要有Taxonomy, Semantic Web, Ontology和Topic Maps。這些新型的知識組織工具沿用了傳統的詞匯控制和知識分類的原理與方法,同時結合當前網絡環境發展的需要和特征,并對某些方法進行了增強或結合,從而顯示出了新型知識組織工具的新用途和新特征。
2.2.4.1 Taxonomy
Taxonomy一詞來源于生物科學領域,主要是指動植物有機體的分類體系。在知識組織領域,taxonomy是近幾年才出現和發展起來的,很大一部分原因是來自于商業界對網絡信息分類組織的需求。從廣義上來看, taxonomy泛指一切具有分類功能或登記結構的知識組織工具,如萬維網指南、圖書分類法、企業實用信息分類系統以及支持自動標引的分類表等,都可以歸類到taxonomy的范疇。從狹義上來看
,在知識管理的框架下,taxonomy則特指企業信息分類系統(corporate taxonomy)。雖然目前對taxonomy的概念還沒能夠達成共識,但它與傳統的知識組織相比,有其獨有的特征。首先,在使用范圍方面,taxonomy主要用于某一特定機構(主要指企業)。這一特征明顯將taxonomy與傳統的知識組織工具區分了開來。傳統知識組織工具如分類法、敘詞表等主要用于圖書館與情報中心,在組織企業資源方面顯得力不從心。其次,taxonomy類表簡單、靈活,易于理解和使用。它由等級結構和主題詞兩個部分組成,其各種應用功能均由這兩個部分組合實現,taxonomy的這兩個構成元素與分類法和敘詞表的組成元素有著相似性,但它們在屬性和功能上是有區別的。
從屬性上來看,taxonomy的分類結構更簡單、靈活、實用,并不局限于學科分類,更著重于采用普通用戶可以理解的分類結構;它的類表類型不局限于等級列舉式,更為廣泛地采用分面分類和多重列類;類目劃分也更為靈活。而從功能上看,taxonomy可應用于各種環境和支持各種用途,如源信息自動分類、檢索提問處理、檢索結果優化等。不過相對來說,taxonomy更常用于企業等某一特定機構的知識分類和網站瀏覽、導航,也是企業知識管理、知識庫建設的重要組成部分。最后,Taxonomy具有兩個基本功能,分別是瀏覽和輔助檢索,而瀏覽則是其最主要的功能。
2.2.4.2 Semantic Web
擁有萬維網之父之稱的伯納斯·李(Berners Lee)于2001年對下一代互聯網的前景進行了描繪,并稱下一代互聯網為“語義網”。伯納斯認為,語義網是對目前網絡的一個延伸,在其中信息具有明確的語義,所以能夠實現計算機和人更好地協作。和萬維網不同的是,語義網為智能網絡的一種,其目標是擴展現行的互聯網,從而使得全部內容更容易使用,整個互聯網可以自動處理,最終構建一個計算機可理解的全球平臺。換言之,語義網是數據網,是機器可理解的信息,更是一個世界性的數據庫,在該數據庫中,所有能夠確定的內容,諸如人、事件、時間、物體等,都能夠以實體的形式分布在語義網當中,并且每一個實體都具有一個統一資源標志。語義網是下一階段信息革命的代表,可以將它看成一個巨型大腦,各個數據庫作為其組成部分,協調能力極其強大,智能化程度也非常高,能夠解決各種類型的難題。因此,也有學者稱語義網為“數據庫協調好、智能化的巨型大腦”。另外,元數據是語義網的核心,語義網通過基于現有Web增加標準的、共用的,且機器能夠理解的元數據,使原來很多在Web環境下無法實現或難以實現的應用成為可能或變得更有成效,如信息過濾、信息獲取、Web自動服務等。
目前,語義網有兩種形式:一種形式為可擴展的標識語言(extensible markup language, XML)+實用分類系統(ontology)+資源描述框架(resource description framework, RDF)。架構語義網需要提供一種語言,該語言可以同時對數據和根據數據進行推理的規則進行表達,還準許任一現存知識表現系統中的規則能反映到網絡上。RDF與XML滿足這個要求,它們與實用分類系統一起構成了語義網的三個組成要件。另一種形式為通用資源標識符(uniform resource ldentifier, URI),它是標識概念或資源的一種文本字串,也叫作URL,如在互聯網上常看到的以“Ftp”或“Http:”開頭的字符串。它具有多種形式,能夠標志的東西也多。其最大特點為準許任何人通過在網絡上定義一個URI,以此定義很多新的概念或名稱。它能夠標識定位全部的互聯網資源,是構成語義網的一個基石。
2.2.4.3 Ontology
本體是知識組織的工具之一,知識組織的本體論是近年來學者們關注的熱點問題之一。它早期為哲學領域的一個概念,從20世紀90年代開始,轉變為計算機人工智能領域研究的本體,并成為圖書情報界的一個熱點研究領域。有學者認為本體是通過描述、捕獲領域知識,確定領域內共同認可的概念和概念間的關系,以用于領域內的不同主體之間交流與知識共享的形式化規范說明。李景對本體技術標準化問題進行了研究,認為本體技術的標準化包括:敘詞表、分類法、本體表示語言、本體設計基本技術路線、本體系統的開發、頂級本體的邏輯結構、領域本體的構建、本體在語義網中的應用等多方面。李弘偉和王惠臨
從主要元素和推理機制出發對8種常用本體表示語言進行了分析研究,探討其語法、語義轉換技術、轉換模型和轉換工具。當前在圖書情報這一領域當中,大部分學者認為“本體是給出構成相關領域詞匯的基本關系與術語,并利用這部分基本關系與術語的構成規定這部分詞匯外延的規則”、“本體是對概念化的精確描述”或者“本體是對某個概念集的一個規范說明”。
2.2.4.4 Topic Maps
主題地圖(topic maps)是一種用來描述知識以及知識與信息資源聯系的方法。它是一種知識網絡,該知識網絡中不同的網絡節點代表不同主題的知識,而節點間的連線則代表著主題之間的聯系,任意兩個主題之間的距離能夠根據節點間的連線數量來計算,而這部分連線則代表著從某一主題到達另一主題的路徑。通過這種主題地圖,人們能夠把抽象的知識內容連接成具有概念坐標的一個知識地圖,在海量的信息之中,可以借助尋址與鏈接技術形成知識結構。用戶能夠根據自己對某領域的認識和了解程度,從自己有興趣或者熟悉的主題方向出發,獲得自己所需要的相關知識。主題地圖可以描述并管理無限復雜的信息世界,但它的基本構成卻很簡單,由主題(topic, T)、事件(occurrence, O)以及關系(association, A)三要素共同構成。主題地圖的基礎理論研究主要包括主題地圖標準體系的建立與研究、主題地圖與其他知識表現技術的比較和互操作研究、主題地圖結構及特征要素的研究等。
2.2.5 知識組織工具的發展趨勢
2.2.5.1 數字化和網絡化
知識組織工具的發展應以當前的網絡環境為前提和基礎,所以數字化和網絡化是當前知識組織工具發展的主要趨勢。這主要表現在:
第一,傳統的知識組織工具紛紛基于Web窗口推出了網絡版。例如,隨著Internet的普及,聯機計算機圖書館中心(online computer library center, OCLC)及時推出了《杜威十進分類法》(DDC)網絡版,建立了專門的網站,并基于DDC的研究項目開發了多個版本,實現在線更新和發布等。由于網絡信息組織的需求,我國的《中圖法》近年來同樣開發了電子版,可以在網絡上直接檢索和瀏覽類目名稱與周圍類目,如上位類、下位類和同位類。分類法在網絡時代的編制和改造工作,還包括適合網絡信息分類的分面分類法的編制和應用研究,以及用戶參與的大眾分類法的編制。敘詞表在網絡環境下的改造也非常明顯,大致能夠劃分為以下兩類:一類為把敘詞表嵌入檢索系統,作為檢索系統的后控詞表,用戶進行瀏覽和檢索后,能夠直接選用檢索詞鏈接到相關的資源,如AGROVOC敘詞表、CAB敘詞表等。另一類為聯機敘詞表。這是和檢索系統相互獨立而存在的一種網絡信息檢索工具,主要是不直接鏈接到資源,而通過詞匯進行選擇,如UNESCO敘詞表和醫學主題詞表(medical subj ect headings, mesh)。網絡化的敘詞表能夠增強網絡檢索系統的性能,通過在詞表當中實現超文本導航,再根據其語義關系幫助用戶建立檢索提問,并對檢索范圍進行控制,最終提高檢索的效率。
第二,新型的知識組織工具也是基于網絡環境提出的。Taxonomy、Semantic Web、Ontology、Topic Maps等新型知識組織工具都是以互聯網為支撐的,并且,由于知識資源的數字化和網絡技術的應用,知識組織工具組織文獻資源的功能在淡化,揭示信息資源內容特征的功能在強化。新型知識組織工具主要是基于概念,而不是館藏文獻,從而強化了知識組織工具的應用潛力。
2.2.5.2 標準化
知識組織系統標準化是實現知識組織系統之間交流與互換的基礎,它能夠加速知識組織工具的發展,方便知識組織的使用,避免許多不必要的重復探索。國際和國內的相關機構都非常重視標準化,為此做出了不懈的努力,順應網絡化與數字化的趨勢制定了不少新的標準,如敘詞表編制標準、圖書分類表、主題標目表等相關標準,這些都體現了標準化是知識組織工具發展的趨勢之一。
2.2.5.3 互操作
互操作是指兩個或兩個以上系統相互使用已被交換的信息的能力,它能夠解決異構系統、多語言映射的問題。國外學術界一直比較重視知識組織體系間的互操作研究,實施了許多積極而有成效的研究計劃。這主要表現在以下三個方面:一是基于不同敘詞表轉換以及敘詞表和本體之間轉換的研究,如OCLC的LCSH/ERIC的映射計劃,將ERIC敘詞表轉換為MARC格式;二是基于全局分類體系和局部分類體系之間轉換的研究,如歐盟的Renardus項目,利用分類法映射技術,通過DDC與不同局部分類體系之間的轉換,實現不同信息系統資源的統一瀏覽和檢索;三是基于超級詞表、語義網絡和專家詞典的集成式互操作研究,如美國國立醫學圖書館的統一醫學語言系統(unified medical language system, UMLS)。國內學術界雖然對知識組織系統的互操作還沒有足夠的重視,但在主題法與分類法的互操作方面,還是有一定的研究成果,如戴劍波、侯漢清的《圖書分類法映射系統設計原理——以<中國圖書館分類法>和<杜威十進分類法>為例》,是對等級體系分類法相互映射的可行性、映射實現模式、自動映射實現原理的研究;又如張雪英、侯漢清的《分類表敘詞表轉換系統的設計》以文獻數據庫標引數據(《漢語主題詞表》與《中圖法》)為實驗對象,以金融銀行學科為例建立了標引詞(串)與分類號的對應模型,這是對分類表與敘詞表轉換系統設計的研究。綜上所知,在互操作這一領域當前關注的焦點及發展趨勢是將多類型多語種的知識組織體系通過相互映射集成整合,并可被用于多個不同系統,實現異地跨系統的瀏覽與檢索。
2.2.5.4 可視化
可視化是指將數據信息和知識轉化為一種視覺表達形式,是用圖形等可視化工具顯示知識組織體系結構的。隨著社會信息的日益豐富,可視化已經成為知識組織工具發展的一項不可逆轉的潮流。可視化技術的研究和應用已從根本上改變了我們表示和理解大型復雜數據的方式,給知識組織與管理帶來了深遠的影響。目前,可視化的知識組織工具主要有概念圖(concept map)、思維導圖(mind map)、認知地圖(cognitive maps)、語義網絡(semantic networks)、思維地圖(thinking maps)等,通過圖形可視化的方式展現本體中網狀結構的知識。
2.2.6 小結
綜上所述,國內近年對知識組織的研究呈迅速發展、不斷深化和拓展的趨勢,主要表現在知識組織與服務工具的多元化及可視化的研究方面,除分類法、敘詞表等傳統工具外,還涉及本體、主題圖、主題網關、分眾分類法等新型工具。其研究主題大多仍然集中在知識組織系統的基礎理論、構建方法與軟件技術、應用方法等領域,但研究的具體內容開始細化,與語義網、搜索引擎、數據挖掘等新技術更緊密地結合,知識組織系統在網絡信息資源、數字圖書館等領域的應用研究得到了重視。
從知識組織的方式方法來看,當前很多研究者對方式方法的研究多為理論上的介紹,對某些先進的知識組織系統與知識組織方法技術也大部分是試驗性的探索和研究,卻很少研究具體的應用實踐,所以對知識組織方法技術的研究需要進一步加強。
主題圖、知識地圖、主題網關等新型知識組織工具仍是研究的熱點,包括理論研究和構建實踐、應用等方面。一些學者嘗試在特定領域構建主題圖、知識地圖、主題網關等試驗模型,旨在更有效地組織和管理知識資源。
本體是近年來的一大研究熱點,在本體理論、領域本體的構建實踐、基于本體的應用研究等方面比較突出。本體理論的研究包括本體概念、語言、工具、標準化等方面,基本上沒有新的突破,只是對以往概念的進一步闡述。關于本體構建,很多學者都在研究將自動化或者半自動化的方式運用到本體建設中,如自動聚類、自動抽詞、相似度計算等技術,從而提高本體構建的效率。
網絡知識組織系統是近年研究的熱點和重點,它是為解決目前基于一般檢索系統進行網絡信息資源組織和檢索的弊端而出現的,尤其是分眾分類法、術語注冊、術語服務、詞表間的互操作、以用戶為中心的設計和網絡化詞表等,作為開展知識檢索等知識服務項目的基礎,在近年來各種相關機構組織的項目和會議中都占據了重要位置。網絡知識組織系統的發展、完善和實際應用,作為一個發展迅速的方向,將會成為知識組織系統產生重大突破的重要分支。