- 基于“學術單元”的知識組織新框架:“多維度標簽”構建研究
- 韓松濤
- 4756字
- 2020-03-23 14:36:50
1.1 文獻單元、信息單元和知識單元
從廣義上講,文獻單元、信息單元都是知識單元的一種類型,但從狹義上講,三者各有不同。從時間上來說,文獻單元是最早出現的,也是經歷了數千年的一個重要的知識管理的單位。信息單元、內容單元是文獻單元和知識單元研究中的一個過渡或者中間概念,雖然存在時間不長,但“信息”的概念已經發展為“信息資源”的概念,成為所有文獻、信息、知識的總稱,并轉化為圖書館學的新名稱“信息資源管理”。隨著知識管理的興起,知識單元作為知識管理的最重要元素,成為主要的研究對象。由于目前認為知識單元是組成知識的最小單位,故知識單元也被稱為知識元。
1.1.1 文獻單元
文獻從外在形態上講,自成一個獨立性的單元,故文獻單元與文獻的概念是基本等同的。我們在討論文獻單元時,也可以將文獻作為一個相同概念進行討論。
國家標準對文獻的定義是較為權威并具有廣泛影響的,GB 3469—83《文獻類型與文獻載體代碼》與GB 379211—83《文獻著錄總則》均將文獻定義為“記錄有知識的一切載體”。王子舟認為這個文獻的定義存在某些疏漏,指出記錄有知識的人工載體很多,除了圖書以外,還有錢幣、郵票、商周時期的青銅器等。王子舟認為文獻必須是專用于傳播知識、交流知識的,它在用途、功能上具有知識傳播的唯一性,而上述錢幣、郵票、青銅器等并不具有傳播知識的本身屬性。王子舟因而提出了“并非記錄了知識的都是文獻”這樣一個概念,并將“文獻”重新定義為“專門記錄和傳遞有知識的人工載體”,強調其傳遞知識的功能。這樣的定義有其合理性,但我們也可以把國家標準對文獻的定義看作是廣義的定義,而王子舟的則是狹義的定義。
文獻單元以載體形式存在,是一個普遍被承認的觀點。同時,也認為文獻單元往往以獨立的載體形式存在,舉例如簡帛、圖書、光盤等,這個認識卻是有偏差的。
期刊中的學術論文是一種文獻單元,而且是現實存在的數量巨大的文獻單元,而期刊則是由多篇論文集合成的一個獨立載體。學術論文之所以被認定為文獻單元,其實是根據其外在的獨立形式來判斷的,如開頭為題名,其后為責任者,再則后有文摘關鍵詞,中間是正文,最后是引文。所以論文作為文獻單元,與圖書的不同點是其不具有獨立的載體形式,共同點應該是與圖書一樣,具有外在的獨立形式。
所以圖書與論文為代表的文獻單元,其共同點是具有外在的獨立形式,這種形式或者是物理上的,或者是邏輯上的。國際文獻工作標準化組織批準的《文獻工作用術語標準:情報與文獻用術語(草案)》(ISO/DL 5127)對文獻的解釋為:“Document,是指在存貯、檢索、利用或傳遞記錄信息的過程中,可以作為一個單元處理的,在載體內、載體上或依附載體而存貯有信息或數據的載體。”從“依附載體”來看,其概念包括期刊論文。期刊論文不具有獨立的載體形式,而是“依附”于期刊這個“載體”。所以論文這種文獻,雖然不具有獨立的載體,但依然離不開載體。
從上述的討論可以看出,文獻的關鍵內容是載體。如對古籍的修復,其實是指對古籍載體——紙張的修復,載體存在了,載體上記載的知識也就存在了。所以圖書館對文獻的管理,其實是對載體的管理;對文獻的著錄,部分內容是對載體的描述,如文獻的大小(以前用開本,現在用書脊長度)、頁數;部分內容是對文獻出版情況的描述,如作者、出版地、出版社、出版年,等等;只有少部分涉及文獻的內容,但也往往只有書名一項。所以圖書館對文獻的管理是一種形式上的管理,而非內容上的。隨著時代的發展,這種管理已經不能滿足需求了,于是出現了信息單元、知識單元的研究。
從廣義的知識單元來說,文獻單元是一個確定的知識單元,可以作為一個獨立的知識單元處理。同時,文獻單元包含多個狹義的知識單元,由于不能直接將物理的文獻單元中的知識單元提取出來,所以有學者認為文獻單元是知識管理的一種間接單元。
1.1.2 信息與信息單元
與文獻及文獻單元不同,“信息”與“信息單元”兩個概念有很大的差別。原始的信息概念主要是指動態的數據和消息,如股市的行情、經濟運行的數據、新聞報道等。“信息”一詞在圖書館界的廣泛運用,與互聯網、電子資源等資源形式的出現有關。1992年以來,國內學術界將“情報”改為“信息”,“文獻情報”“文獻組織”“文獻著錄”“文獻檢索”“文獻計量”等也相應變為“文獻信息”“信息組織”“信息描述”“信息檢索”“信息計量”,“信息”開始成為圖書館界一個普遍和通用的概念,并形成廣義的信息的概念。這個信息概念包括了文獻,也包含了數字資源中概念的數據,還包括了在管理信息時產生的數據,如元數據,等等。經過一段時間的發展,“信息”的概念延伸為“信息資源”的概念,基本成為所有文獻、信息、知識的總稱。從某種意思上說,廣義的“信息”與“信息資源”的概念基本等同。“信息資源”的概念轉化為“圖書館學系”的新名稱“信息資源管理系”。也有的高校將圖書館學建成的學院從“圖書情報學院”改名為“信息管理學院”。這個名稱雖然省略了“資源”兩字,但與計算學科組建的“信息學院”中的“信息”還是有區別的,還是指信息資源的管理。
“信息資源”,即廣義的“信息”概念,與“信息單元”是兩個不同的概念。信息單元的概念來源于邱均平的《信息計量學》一書。該書認為隨著“情報”一詞被“信息”所替代,情報計量學也發展成為信息計量學,同時探討了計量單元的問題,認為“從計量單元來說,文獻計量學已經不僅僅停留在篇、冊、本為單位的文獻單元的計量上,而開始深入到文獻的內部對知識單元和文獻的相關信息進行計量研究,如題名、主題詞、關鍵詞、詞頻、知識項、引文信息、著者、出版者、日期、語言、格式等都已成為計量的對象。”雖然其文中沒有出現信息單元的名稱,但對信息計量學的計量單元進行了羅列。文庭孝在此基礎上總結出了“信息單元”的概念,并認為“文獻的外形特征及其標識即信息單元,它不是文獻本身,也不能有效揭示文獻的知識內容,只是我們控制和處理文獻的信息標識,便于我們通過信息標識來組織管理文獻。”也就是將“信息單元”定義為“表達和獲取文獻的重要信息線索,獨立存在時沒有實質性的價值和意義,只有同文獻單元結合使用時才能發揮出特殊的作用”
。雖然與知識單元的研究相比,信息單元的研究沉寂得多,但信息單元也有自己的內涵和存在的價值。
與信息單元內容相近的,出現過一個“內容單元”概念。這個概念出現在馬費成《科學信息離散分布規律的研究:從文獻單元到內容單元的實證分析》系列文章中。從字面意思上講,內容單元是與文獻單元相對立的,文獻單元是通過外在形式識別的單元,而內容單元主要就文獻的內容而言。馬費成文章中提到“在內容單元(而不是文獻單元)層次上的研究基本上是空白”,說明馬費成也是將兩者對立看待的。但根據文中的敘述“選擇文獻中的關鍵詞或主題詞作為基本計量單元切入科學信息離散分布的研究,即在文獻分布規律成既定的情況下,揭示其中所含的關鍵詞或主題詞(內容單元)的分布狀態”來看,文中提到的內容單元,基本等同于邱均平提到的信息單元,并且馬費成利用關鍵詞和主題詞進行運算的過程,也基本可以算是信息計量學的過程,故“內容單元”并不是一個新的單元內容。
1.1.3 知識單元
知識單元有廣義和狹義兩種,文獻單元、信息單元都是廣義的知識單元。本節只討論狹義的知識單元問題。
早在1980年,我國科學計量學專家趙紅洲先生就曾經提出:“知識單元是已經獲得科學共同體認同的,堪稱‘粒子’形態的科學概念,它是科學的細胞,科學大廈的磚塊。大量的知識單元經過重組,按一定思路可凝聚成知識纖維,知識纖維又可在更高層次上組成復雜的知識系統。”趙紅洲先生堪稱我國知識單元研究的倡導者。
我國圖書情報學界對知識單元的探討則略顯滯后。1988年,張德芳先生撰文指出:知識單元是寓藏于出版單元(某一文獻)之中的,一個出版單元可能貯含一個以上的知識單元。“科學知識單元是科學勞動的產品,是在事物、實物、現象、過程等零散信息基礎上,經過系統歸納、分析、整理,能夠反映其本質規律的概念、定理或定律。”這是一個非常有遠見的論點。對于知識單元的具體運用,1995年左秀英提出建設“知識單元專題數據庫”的意見,并指出知識單元“內容變化很大,它可以是一個簡單的結論、一個具體的數字,也可以是一段較長的論述。”
左秀英論文中提出的其實是從文獻中提取知識單元的具體做法,并沒有過多地從理論上探討知識單元的問題,但從其論述上看,無不有后來知識單元的影子,該文可作為圖書館界對知識單元問題的一種無意識的指向,體現了我國圖書館員的思考與創新能力。
到了20世紀90年代末,圖書館界終于認識到,如何從文獻單元服務深入到知識單元服務,已經是圖書館實踐面臨著的新的重大課題。
隨后的一系列研究,如2003年王子舟在《中國圖書館學報》上發表的《知識的基本組分——文獻單元和知識單元》、溫有奎在《情報學報》上發表的《知識元鏈接理論》等重要研究出現后,知識單元及知識組織的研究進入了一個“全民時代”。
具有普遍性的知識單元概念主要認為:知識單元是知識管理、知識計量與知識評價的最小單元。狹義的知識單元目前主要用知識元來表示。知識元是指文獻中相對獨立的、表征知識點的一個元素,它可以是一段文字、一幅圖表、一個公式、一章或一節、一段動畫、一個程序等。知識元也往往直指知識產品(圖書、論文、專利等)中的概念、論點(觀點)、論據(數據、資料)、論證(方法、模型)、結論等知識核心和知識創新點,也可稱為元知識。溫有奎等人對知識元問題進行了大量的研究,其主要貢獻在于提出了“知識鏈”的概念,并在《知識元鏈接理論》中提出:“文本內容的組織排列,是由一個個獨立知識元素的邏輯排序結構。這種獨立的知識元素我們稱之為知識元,邏輯依存關系稱之為知識鏈。”
這個理論已經被廣泛認可。
溫有奎將知識元分成兩大類10小類,分別是:①描述型,包括信息報道型、名詞解釋型、數值型、問題描述型和文獻引證型;②過程型,包括步驟型、方法型、定義型、原理型和經驗型等。此外,也有不同的分類方法,如將知識元按照知識元表達的內容差別可以分成理論與方法型知識元、事實型知識元和數值型知識元:①理論與方法型知識元包括思想、方法論、公理、原理、定律以及正在探索中的觀念、觀點、方法與技巧;②事實型知識元包括自然、社會存在和演變的事實信息;③數值型知識元包括各種數據類知識和科學數據,具有數值分析和知識推理功能,其中包含了大量的社會經濟數據。
上述的分類方法,其實將本書中的信息與知識兩個概念的內容都包括在了“知識元”這個概念中。知識元與文獻單元共同組成了信息資源。文獻單元以具有形式上的獨立性及具有載體為特征;知識元則只具有內容的特征,這個內容包括文字、公式、圖像等符號對知識和信息的描述,也即顯性知識。
1.1.4 文獻、信息、知識辨析
文獻、信息、知識三個概念是相互穿插的。文獻是包含有信息與知識的載體,是具有實物的外在形態的。信息(本節中的信息指狹義的信息概念)與知識是就內容而言,不具有實物性質的外在形態。根據現階段的理論,信息與知識都被包含在知識單元這個概念中。
相對于信息而言,知識這個概念是比較窄的,在現實中有大量的內容不是知識,而是信息。比如商品的價格、證券的價格、經濟運行的數據,等等。信息雖然不是知識,但也是用戶想了解的重要內容。信息的主要特征是具有時效性,時效性過后,信息或失效成為可廢棄的內容,或轉化為知識。當然,只有少部分重要信息,通過沉淀會成為知識。比如,新聞事件的報道屬于信息的范疇,大部分新聞都會被時間所過濾而湮沒無聞,但部分事件通過時間的沉淀,被判定為重要歷史事件,則該事件的發生時間、地點、人物、過程、影響等都會成為知識而被人類社會保存下來。大量的知識并不是由信息轉化而來的,而是通過人類對自然和社會的認知,或是通過實驗、邏輯推理等方法獲得。在本書中,大量產生新知識的活動,被定義為學術活動。