- CADAL數字圖書館知識標準規范及應用研究
- 劉柏嵩
- 2486字
- 2020-02-26 16:05:21
1.2 知識標引
1.2.1 知識標引的定義
標引(indexing),簡單說是一種標識和引導,是對文獻是什么信息的描述;具體是指在分析文獻內容或情報問題的基礎上,用某種索引語言或標識符號把文獻的主題概念及其他有檢索意義的特征標識出來,作為情報存儲和檢索的依據的處理過程。
傳統標引是以文獻為單位的標引,它依據文獻的外部特征,如文獻的標題、作者、出版時間、出版社或刊物名稱等來進行標引,或者依據文獻的學科分類進行標引,或者依據文獻的主題詞進行標引。傳統標引雖可以為用戶提供檢索的依據,但并不能提供準確的知識信息。如何實現傳統的信息服務向知識服務的轉變,是我們下一步研究的重點。
知識標引是實現知識組織、知識檢索的核心,是實現信息服務向知識服務轉型的關鍵技術。實現知識標引,知識才可能被人類有效檢索、利用和再創造,起到知識增值的作用,信息服務才可能真正轉變成知識服務。知識標引是以知識元為單位的標引,它依據文獻本身的內容,即知識本身來進行標引,對文本內容進行知識挖掘,最終為用戶提供更加準確的知識信息。
知識標引的基礎是知識元。知識元是構成知識的最小單位,是文獻中的概念、數據、公式、圖表、定理、模型、結論等,是構造知識系統的基礎。知識元的不同排列組合可以組成不同的知識單元,不同的知識單元按照不同的邏輯關系可組成不同的知識元鏈接,這是一個知識學習的過程,同時也是一個信息轉換為知識的過程。另外,知識標引過程既可以體現出知識結構的背景,又可以體現出知識的創新點,這是一個知識增值的過程。因此,利用知識標引進行知識檢索時,用戶不僅可以通過知識單元間接獲取知識,而且可以通過知識元直接獲取知識,這就大大地提高了知識的利用率,從而實現了為用戶提供知識服務的目標。
1.2.2 知識標引的分類
標引按照使用的標引語言或標識符號的類型,可分為分類標引和主題標引;按照使用的標引設備,可分為手工標引和自動標引。
1.2.2.1 分類標引
分類標引,又稱文獻分類或信息分類,是依據特定的分類規則,對文獻進行分類標識的過程。分類標引的過程,就是根據已經選定的分類規則,對標引對象的特征進行分析,在確定標引對象所屬的類目后,將所要表達的相關信息,用對應分類法中規定的符號代碼表示出來的過程。簡單來說,就是按照規則把某些具有共同特征的信息聚類在一起,并依據信息間的關聯關系把它們組成一個條理清晰、層次分明的整體的過程。經過分類標引,可以將大量的文獻分門別類,納入特定的分類體系,使得對于原本無序的文獻,可按照特定的分類體系對其進行分類標識,使其組成一個有序的學科體系。分類標引還能較好地體現出知識的系統性,把同一領域的知識集中在一起,將不同的區分開來,從而滿足了用戶按專業領域進行檢索的需要。
1.2.2.2 主題標引
主題標引,是依據特定的主題語言,賦予文獻主題標識的過程。主題標引所依據的主題語言可以是標題詞語言、敘詞語言、關鍵詞語言等。因此,主題標引賦予文獻的主題標識可能是標題詞、敘詞、關鍵詞等。通過主題標引,人們可以把同一主題的相關信息聚類在一起,并按照規定的順序排列起來。主題標引是對標引對象進行主題分析,在確定標引對象的主題概念后,按照一定的詞匯控制方式,對標引對象賦予恰當的語詞標識的過程。與分類標引相比,主題標引可以集中有關一個主題的各種信息,有較強的直觀性、專指性和適應性。主題標引一般有兩類標引方式,一種是自由標引方式,這種標引方式是標引人員直接從已有的描述標引對象信息特征的語句中選取主題詞作為標識,這種方式對標引人員的專業化程度要求較高;另一種是詞表標引方式,這種標引方式是從已制定好的各類主題詞表中選擇相關的語詞作為標識,這種方式對主題詞表的維護要求較高。
用主題標引文獻確實可取得不錯的效果,但也存在問題:一是主題詞存在不連貫性,使得使用者很難直接從主題詞中較準確地獲得文獻的主題;二是當主題詞數量偏少時,標引效果就會受到影響。在這種情況下,情報界提出了主題概念標引,它對文獻的主題概括能力較強,可以使標引的效果增強。
目前,獲得概念主題詞的方法主要有三類:一是在某個主題詞在概念層次中沒有直接的同義詞或準同義詞的情況下,直接選取上位詞作為主題概念;二是在某個主題詞在層次概念詞典中有若干直接同義詞且這些同義詞在文章中也出現的時候,通過聚類產生上位詞作為主題概念;三是在若干主題詞同時出現在文章的標題或正文的某些字段中的情況下,將兩個(或以上)主題詞合成生成主題概念。
1.2.2.3 手工標引
手工標引的基本流程為:①閱讀文獻;②分析文獻內容;③提取主題概念;④表達主題概念;⑤使表達規范化;⑥編制索引目錄;⑦編輯為索引和文檔。
與自動標引相比,手工標引存在很多的弊端,概括起來有以下幾方面:
(1)一致性差。人具有主觀性,所以不同的標引人員在標引同樣的文獻時也可能會有不同的結果,這使得手工標引在標引一致性方面存在較大的缺陷。
(2)技術性強。手工標引屬于一項技術性較強的工作,對標引人員的專業要求較高,標引人員不僅要具有圖書情報理論基礎,而且要具備較強的專業素質。
(3)效率較低。手工標引需要標引人員在瀏覽全文后,才能找出文獻的主題信息,并對其進行標引,因此手工標引的速度很難大幅度提高,效率較低。
1.2.2.4 自動標引
與手工標引相比,自動標引具備較好的優勢。自動標引是指利用計算機從文獻中自動提取相關知識引導的過程。
自動標引的基本流程為:①獲得文獻文本,以準備標引,此文本須轉化為機讀式文獻;②語句分析;③詞語加權;④確定標引詞的權值;⑤選出標引詞;⑥把標引詞轉換為受控詞;⑦文檔生成與索引編輯輸出;⑧根據反饋信息,再進行詞相關加權計算,以提高標引質量。
按照標引詞來源的不同,自動標引可以分為自動抽詞標引和自動賦詞標引。
自動抽詞標引指的是由計算機直接從原文中自動抽取詞或者詞語作為標引來描述文獻的主題內容。它涉及如何從文獻中抽取出可以表達其實質意義的詞語,并根據這些詞匯確定標引詞。后文所講到的知識抽取就屬于此類標引。
自動賦詞標引指的是使用預先編制好的受控詞表,先取詞語對文獻進行標引。它涉及如何編制受控詞表來反映文獻內容中的關鍵詞。后文所講到的學科文獻學術水平等級切分就屬于此類標引。