- CADAL數字圖書館知識標準規范及應用研究
- 劉柏嵩
- 5179字
- 2020-02-26 16:05:21
1.4 信息組織的相關標準
1.4.1 相關標引標準
標引分為分類標引和主題標引,相對應的,標引的標準也分為分類法和主題詞法。
1.4.1.1 分類法
基于分類法的標引標準發展較早。早在1876年,杜威就創立了《杜威十進分類法》(Dewey Decimal Classfication, DDC),可以說是開辟了圖書分類法的新紀元。1901年,美國《國會圖書館圖書分類法》(Library of Congress Classification, LCC)首次發表大綱,至1962年正式出齊,成為一種通用的圖書分類法,在20世紀被廣泛應用。
目前,在全世界使用最廣泛的是《國際十進分類法》(Universal Decimal Classification, UDC),又稱“通用十進制分類法”,是國際通用的多文種的綜合性的文獻分類法。《國際十進分類法》由奧特萊和拉封丹在《杜威十進分類法》的基礎上編制而成,1899年起陸續以分冊形式出版,1905年匯編成《世界書目手冊》,1927年的法文增訂版更名為《國際十進分類法》。現UDC由國際文獻聯合會(Fédération Internationale de Documentation, FID)統一負責其日常管理事務,并主持對其的修訂工作。UDC是歐洲第一部文獻分類表,也是世界上規模最大的一部文獻分類法。它最早提出概念分析和組配原則,被稱為分面組配式分類法的先驅。由于UDC多語種、多版本,類目詳細、組配靈活、標引能力強,因而不僅適用于成冊文獻的分類和排架,還能滿足單篇文獻的分類要求;不僅適用于手工檢索,還被成功地應用于機器檢索,從而成為一種國際通用的情報檢索語言之一。20世紀80年代后期,全世界已有50多個國家使用UDC,用戶總數超過10萬個。英國、匈牙利和西班牙把UDC定為國家標準,蘇聯則規定UDC為類分科技文獻的分類法。許多國家出版的期刊論文和特種技術資料都標有UDC類號。中國國家標準(GB)上也標有UDC的類號。
在成立初期,圖書館使用各種不同的分類法,其中較常用的有《人大法》《科圖法》等。1975年,《中國圖書館圖書分類法》(以下簡稱《中圖法》)問世,它是中華人民共和國成立后,我國編制出版的一部具有代表性的大型綜合性分類法,出版后就被各類圖書館所廣泛使用。1980年,《中圖法》第2版修訂出版。1990年,《中圖法》第3版修訂出版。1999年,《中圖法》第4版修訂出版。修訂后的《中圖法》第4版增加了類分資料的類目,并與類分圖書的類目以“+”標識進行了區分,因此正式改名為《中國圖書館分類法》。《中圖法》第4版全面補充新主題,擴充類目體系,使分類法跟上科學技術發展的步伐。同時,規范類目,完善參照系統、注釋系統,調整類目體系,增修復分表,明顯加強類目的擴容性和分類的準確性。2001年,《中圖法》第4版出版了電子版。2010年9月,《中圖法》出版了第5版。此次修訂幅度較大,新增1631個類目,停用或直接刪除約2500個類目,修改類5200多個。《中圖法》自出版以來,就得到了廣泛應用,全國各級各類圖書館96%都在使用,它成為分類法的事實標準,實際占有國家標準分類法的地位。
1.4.1.2 主題詞法
相比分類法,主題詞法的發展較晚。1974年出版的《單語種敘詞表編制和發展準則》(ISO 2788—1974)是第一個正式的國際標準。
在我國,全國文獻工作標準化技術委員會是一個基礎性的文獻標準化工作組織,其第五分會是主題標引分技術委員會。該委員會自成立以來,在標引標準化建設方面取得了一些顯著進展。到目前為止,已作為國家標準批準頒布的有五項:GB/T 13745《學科分類代碼》、GB 3860—1995《文獻敘詞標引規則》、GB 13190《漢語敘詞表編制規則》、GB 15147《文獻多語種敘詞表編制規則》,以及GB 15418《檔案文獻標引規則》。
《漢語主題詞表》是我國第一部大型的綜合性敘詞表,1980年出版以后,所確立的詞表結構體系和詞匯基礎都得到了廣泛的認可,為其他詞表的編制起到了規范作用,大大地推進了圖書館的標準化工作。
1.4.2 基于元數據的信息資源描述標準
元數據,即數據的數據,是用來描述數字化信息資源并確保這些數字化信息資源能夠被計算機自動辨析、分解、提取和分析歸納的一種框架或一套編碼體系。
基于元數據的信息資源描述標準目前使用最廣泛的有兩種:一種是使用較早的元數據標準——機讀目錄標準(MARC),一種是描述網絡信息資源的元數據標準都柏林核心元數據(DC)。
1.4.2.1 機讀目錄標準(MARC)
MARC的全稱為machine readable catalogue,中文名稱為機器可讀目錄,是圖書館自動化系統之間傳輸和交換機讀目錄數據時共同遵循和使用的標準記錄格式。它規定了書目數據在機讀介質上的表示和標識方法,實現了對書目數據的描述、存儲、交換、處理及檢索。MARC是目前世界上歷史最悠久、發展最成熟,同時使用最為廣泛的一種元數據標準。
各個國家為了適應自己國家著錄信息的需要,都制定了相應的MARC,故MARC的格式眾多,但這些格式都是在USMARC, MARC 21, UNIMARC的基礎上發展起來的,中國的機讀目錄格式稱為CNMARC。下面分別對這四種MARC格式進行介紹。
1.USMARC
USMARC,即美國機讀目錄標準,原來也稱為LCMARC,是由美國國會圖書館在20世紀60年代開始制定的。1966年,其制定出了MARCⅠ標準。經過一年多的試用,在MARCⅠ的基礎上,美國國會圖書館于1968年又制定出了MARCⅡ標準。到1971年,美國國家標準學會批準LCMARC為《書目數據交換磁帶美國國家標準》(ANSI 239.2—1971), LCMARC從此被稱為USMARC。
USMARC所依據的國際標準是ISO 2709—1996《信息和文獻 信息交換格式》。ISO 2709規定了機讀目錄記錄的基本結構,它規定MARC記錄由一些具有字段指示符的變長字段組成,它的結構包括記錄頭標區、記錄目次區、記錄數據區和記錄分隔符。由于ISO 2709適用于各種文獻類型和語言,具有很大的靈活性,因此它的頒布很快在世界圖書情報界得到普遍應用,成為制定各種機讀目錄格式的基礎。隨著各文獻機構自動化建設的發展,許多國家和地區以及國際組織都采用ISO 2709所規定的地區及組織的標準機讀目錄通訊格式。
2.MARC 21
MARC 21是由美國國家圖書館和加拿大國家圖書館于1999年在USMARC和CAN/MARC的基礎上合作制定的,它是為響應網絡時代而產生的一種通用的、開放性的資料格式。MARC 21包含五大部分,即書目數據MARC 21格式(MARC 21 format for bibliographic data)、規范數據MARC 21格式(MARC 21 format for authority data)、分類數據MARC 21格式(MARC 21 format for classification data)、團體信息MARC 21格式(MARC 21 format for community data)和館藏數據MARC 21格式(MARC 21 format for holdings data)。
3.UNIMARC
UNIMARC,即國際機讀目錄標準,是國際圖聯(International Federation of Library Associations and Institutions, IFLA)于1971年開始設計的一種通用的機讀目錄格式,其目的是為了實現各國機讀目錄的共享。IFLA于1977年正式出版了《通用MARC格式》,即UNIMARC第1版,1982年出版了UNIMARC第2版,1991年出版了與之配套的《UNIMARC規范格式》。UNIMARC可以描述各種類型的文獻,具有很好的靈活性,因此被很多國家和地區所使用。
4.CNMARC
CNMARC,即中國機讀目錄標準,由北京圖書館編制,在1992年先出版了《中國機讀規范格式(試用本)》。1996年,北京圖書館對原試用本進行修訂,正式出版了《中國機讀目錄格式使用手冊》(CNMARC)。
CNMARC是依據UNIMARC編寫的,遵循ISO 2709國際標準。正如《中國機讀目錄格式使用手冊》所指出的,CNMARC“主要用于中國國家書目機構同其他國家書目機構以及中國國內圖書館與情報部門之間,以標準的計算機可讀形式交換書目數據”。
CNMARC雖然依據UNIMARC編寫,但是根據我國信息資源的情況和用戶的實際需求,增加和刪減了一些字段,同時在編排格式和體系結構上也遵循了我國國家標準的編寫習慣。
1.4.2.2 都柏林核心元數據(DC)
DC元數據是1995年3月在美國都柏林舉行的第一屆元數據研討會上確定的13個元素的元素集,后又擴展到15個元素,即題名、主題、描述、來源、語種、關聯、覆蓋范圍、創作者、出版者、其他責任人、權限、日期、類型、格式和標識。這15個元素具有可選擇性、可重復性和可擴展性。DC元數據是在計算機和網絡的自動搜索、標引、索引、檢索等研究成果的基礎上,充分吸納圖書情報界的分類、編目、文摘等經驗發展起來的。它是描述、支持、發現、管理和檢索網絡資源的信息組織方式,元素的結構化和層次性是其最大的特點。它支持字段檢索,提供對特定資源足夠全面的描述信息,使用戶不用真正鏈接到檢索資源本身就能對信息資源有全面的了解。
1.4.3 網絡信息資源標引標準
隨著計算機網絡技術以及通信技術的發展,網絡信息資源的數量呈幾何級增長,已經成為信息資源的主體,因而網絡信息資源標引也成為現代信息資源標引中首先要解決的問題,其標準也在傳統標準的基礎上產生了新的變化。
1.4.3.1 MARC在網絡環境下的發展
為了適應網絡信息資源的發展,MARC在網絡環境下的發展主要表現在以下兩個方面:
一方面,MARC擴充和增加了字段,如增加了307字段描述文獻檢索或文獻時間,用51b字段描述計算機文件類型或數據注釋,增加856字段描述網絡信息資源的地址等。
另一方面,與標記語言XML相結合,形成XMARC。XML是在SGML的基礎上發展起來的一種可擴展的標記語言,它保留了SGML系統中的核心部分,使其具有很好的適應性和可擴展性,同時又省去了SGML中復雜而很少用到的部分,簡化了SGML,使其具有很好的靈活性和實用性,方便其使用和推廣。XML的元素不是事先定義的,使用者可根據自己的需要定義文件元素集合,并按自己的要求把這些元素表現出來。
XML在信息資源組織與檢索方面應用廣泛,XML與MARC結合形成的XMARC,推動了信息資源組織方式與結構在理論上的巨大變革以及在實際應用中的發展。
1.4.3.2 網絡信息資源標引標準的發展方向
傳統的信息資源標引標準是使用統一的分類法,而在網絡環境下,網絡信息資源與傳統的文獻信息資源相比,表現出動態性、隨意性和多維性的特點,使得傳統分類方法在網絡信息資源標引中存在以下局限性:一是不能表現網絡信息的動態性。網絡信息是實時更新、實在變化的,具有高度的動態性,而傳統分類方法的穩定性在組織網絡信息資源時反而限制了信息表達的更新,從而不能及時反映出信息的動態變化。二是不能表現網絡信息的隨意性。網絡信息多而雜,并不會按照固定的格式來體現,而傳統分類方法的嚴謹性與這種隨意性相沖突,它的高度規范化的標識并不易把類型龐雜、范圍廣泛且彼此關聯的網絡信息表示出來。三是不能表現網絡信息的多維性。網絡信息具有多維性,它是多元的、交互式的,而傳統分類方法一維性的表示方法不易體現這種多維性。
由此可見,傳統的信息資源標引標準的分類法在網絡環境下有其局限性,其適應性是學術界爭論的一個問題。目前,網絡信息資源的分類方法主要有兩種:一種是采用傳統的分類方法;另一種是采用自創的分類體系。大多數提供網絡信息檢索的搜索引擎或門戶網站都采用自創的分類體系進行信息組織。這些自創的分類體系充分考慮了網絡信息動態性、隨意性和多維性的特點,能把實時的、彼此間具有關聯性的信息提供給用戶,滿足用戶的需要。但是這些分類體系也存在不足,主要表現在類目設置缺乏規律性、大類設置不全、類目設置不科學、類目級數不合理、部分類目名稱不規范等方面。由于這些分類體系都各自為政,使得用戶在使用不同的網站時,就會帶來理解上的困難,同時也不利于網絡信息資源的共建和共享。
在網絡環境下,要解決各搜索引擎和門戶網站自創分類體系所帶來的問題,就需要改變目前的分類方法和分類體系。我們可以以傳統分類體系為基礎,吸收已有的網絡分類體系的經驗和成果,以促進信息共享為目的,構建統一的網絡信息分類體系,實現網絡信息資源標引的標準化。這種標準化將以通用化、兼容化,以及以用戶為中心作為發展的方向。
1.通用化
通用化是網絡信息資源標引標準發展的首要趨勢。網絡是一個跨越國界、多種語言共存的虛擬世界,在網絡世界中信息資源的共建和共享是網絡發展的必然趨勢;而要做到共建和共享,使用國際通用的標準就是必要的基礎條件。原因包括如下兩方面:其一,不同的標準會使同類的資源信息表現出不同的形態,這樣會大大地增加信息資源的共建和共享的難度;而采用通用的標準則與之相反,會使信息資源的共建和共享更易實現。其二,網絡使用戶能夠更加便利地獲取信息,如果采用各自為政的標準而舍棄通用標準,則會大大增加用戶在使用不同網站時獲取信息的難度。因此,為了更好地實現網絡信息資源的共建和共享,需要做到網絡信息資源標引標準的通用化。
2.兼容化
兼容化是網絡信息資源標引標準發展的必然趨熱。首先,制定通用化的標準,需要對原有的各種分類方法進行兼容,使其能用統一的表現方式標引出用戶所需要的信息。目前,世界上已有相關單位對現有的幾種大型的分類法進行兼容化操作,如UDC與DDC正在計劃合作編制地區表,希望在國家及地區概念的表達上取得一致。其次,標引標準的分類法與主題法也在進行兼容,形成分類主題一體化。雖然網絡信息大多是以主題來聚類的,但信息分類也是必不可少的,而分類法在網絡上的使用,更是推動了主題法與分類法的兼容。最后,在上文中我們也已提到,很多網站都有自己的分類體系,存在著無法兼容的問題,給用戶查找信息帶來很大的不便。因此,使得網絡信息資源標引標準具有兼容性,對規范網絡信息資源的建設、方便用戶使用等具有重要的意義。
3.以用戶為中心
以用戶為中心是網絡信息資源標引標準發展的最終趨勢。網絡信息資源標準的通用化與兼容化,最終目的都是為了讓用戶能夠更加方便、更加快捷地獲取和使用網絡信息資源。未來的信息服務和信息組織必將更加重視以人為本,使用戶以最小的努力從最有效的信息組織方式和服務中得到所需的信息。因此,以用戶為中心是實現網絡信息組織標準化的根本出發點,也是網絡信息資源標引標準發展的最終趨勢。