從都柏林核心集和機讀編目格式的比較談資料著錄的未來趨勢

吳政叡 (Cheng-Juei Wu)

輔仁大學圖書資訊系專任副教授

E-mail: lins1022@mails.fju.edu.tw

中文摘要

雖然圖書一直以來為資料處理、檢索、與儲存的主要對象,但是由於自1990Web誕生後,使得網頁成為重要的資訊記載和來源之一,而且其重要性正與日俱增中,也打破了以紙張為主要記載工具的情況。因此本文從目前網頁使用的資料著錄格式--都柏林核心集,與圖書所使用的機讀編目格式,這兩種資料格式的幾個主要差異,諸如欄位的繁簡、檢索概念、與資料重複處理等方面,來討論資料著錄標準的未來可能發展趨勢。此外本文也特別就網頁和書籍的特性,以「散彈槍與手槍」理論,來看兩者在資料著錄上的長期合理趨勢。

關鍵字:都柏林核心集,機讀編目格式,元資料,Dublin CoreMARCMetadata

一、前言

機讀編目格式起源於圖書館嘗試引進電腦做為處理書目資料的工具,美國國會圖書館首先於1966年創造機讀編目格式(MARC)來處理編目資料 [註1],從此以後電腦逐漸取代卡片目錄成為主要的處理工具,雖然在以後的發展過程中,編目規則也有因應電腦的特色來調整,例如1978年出版的AACR2即為其中一例 [註2]。但是由於卡片目錄長久以來建立的深遠影響,同時基於新舊銜接的需要,不論是機讀編目格式或者編目規則,都仍然可以看到卡片目錄的影子。因為人類使用電腦的時間,至今大約祇有半世紀,與使用紙張千年以上的經驗相比,可謂天壤之別,因此一時之間,這些卡片目錄的影子並不易完全去除。

再從歷史發展的角度來看,在1966年美國國會圖書館創造機讀編目格式時,網際網路(Internet)尚未開始建造,電腦的應用也未如今日之普遍,電子檔案的數量更是相對稀少,因此機讀編目格式處理的對象,仍然以紙張印刷媒體為大宗。因此其情況可以說是,以紙張為基礎的記載工具,搭配以電腦為基礎的處理工具。

這個情況在1990年Web誕生後 [註3],開始了另外一個重大的轉變。全球資訊網(Web)最大的貢獻,在將網際網路帶入一般人的日常生活中,不但使得網路的各種應用日益普及,也使得網頁成為重要的資訊記載和來源之一,而且其重要性也正與日俱增中。網頁(電子檔案的一種形式)的出現,也打破了以紙張為主要記載工具的情況,因此未來情況,將逐漸演變成以電腦為基礎的記載和處理工具,形成所謂的電子圖書館(Digital Library)。

那麼在電子圖書館的數位時代,是否已無須對資料加以描述或者編目呢?答案是我們仍然須要對資料來加以適當的描述。一方面,由於電腦軟硬體規格的不斷快速改朝換代,使得電子檔案的版本和格式問題格外複雜,連帶使得資料的保存和管理非常棘手。[註4]

再就資料檢索的角度而言,現今Web網頁的發展,提供了一個很好的觀察線索。網頁大量湧現後,首先發展出來的主要檢索工具是搜尋引擎,搜尋引擎利用全文檢索的技術來自動斷字取索引,然後將索引建立資料庫來做為檢索的基礎。從搜尋引擎工作的方式,我們已可了解一個事實:即便是功能強大和運算快速的電腦,每次都直接針對網頁的內容來搜尋,也是不切實際和無效率的。因此先行對資料做某種程度的加工,即便在數位時代仍然有其必要性,而斷字取索引,從廣義的角度來看,就是編目工作的一種。[註5]

在網頁發展的初期,搜尋引擎確實達成了預期的功能,因而備受歡迎,時至今日仍然是主要的網頁檢索工具。然而隨著網頁的急遽膨脹,自動斷字作索引資料庫,所導致的低品質和資訊含量過少的缺失,便暴露出來且不斷的惡化中。這時圖書館編目的概念又再次受到重視,一種新的理論架構—元資料(Metadata)便形成且逐漸大行其道。

在眾多種類的元資料中,都柏林核心集是較為特殊的,主要它是設計來處理所謂的類文件物件(DLO),簡言之,是可用類似描述傳統印刷文字媒體方式,加以描述的電子檔案。[註6] 而目前Web上大多數的網頁,是符合類文件物件所定義的範疇,因此非常適合利用都柏林核心集來處理。

由於圖書或是類文件物件的網頁,都是以文字為基礎,因此目前網頁使用的資料著錄格式--都柏林核心集,與圖書所使用的機讀編目格式,在角色和功能上是頗為類似的。本文嘗試從這兩種資料格式的比較和分析,來討論資料著錄標準的未來可能發展趨勢。最後作者也從網頁和書籍的特性,以「散彈槍與手槍」理論,來看兩者在資料著錄上的長期合理趨勢。

二、中國機讀編目格式和都柏林核心集簡介

由於世界各國多有其國家制定和使用的機讀編目格式,因此也各有其特色和差異,無法一概而論。但是,各國的機讀編目格式,大都遵循國際機讀編目格式(UNIMARC)的體例改編而來,所以其主要結構是相同的,是先分段(Block),其下有欄號(Tag),每個欄號內含有分欄(Subtag)、指標(Indicator)、和位址(Position)。以國際機讀編目格式(1996年修訂版)來說,有Identification Block、Coded Information Block、Description Information Block、Notes Block、Linking Entry Block、Related Title Block、Subject Analysis Block、Intellectual Responsibility Block、International Use Block、National Use Block等10段,以中國機讀編目格式第四版而言,則分為識別段, 代碼資料段, 著錄段, 附註段, 相關題名段, 主題分析段, 著者及輔助檢索段, 各館使用段等。

在歷經長時間的發展後,機讀編目格式已將各種類型的資料納入處理,以中國機讀編目格式第四版為例,其可處理的資料類型包含—圖書、連續性出版品、投影資料、錄影資料、影片、圖片、地圖、樂譜、錄音資料、拓片、微縮影片、電腦檔等。

一般而言,機讀編目格式的欄位數目甚多,大都超過一百個以上,以中國機讀編目格式第四版來說,根據作者的統計,共有121個欄號,每段平均15.125個欄號。機讀編目格式的每個欄號內也常有很多分欄,中國機讀編目格式第四版每個欄號平均有7.62個分欄。由這些統計數據,不難理解為何機讀編目格式給人深奧和複雜難懂的印象。

機讀編目格式在欄號和分欄的特性上,有必備欄和自由使用欄的區分;就出現次數而言,又有不可重複和可重複的分別。

都柏林核心集是1995年3月由國際圖書館電腦中心(OCLC)和National Center for Supercomputing Applications(NCSA)所聯合贊助的研討會,在邀請五十二位來自圖書館、電腦、網路方面的學者和專家,共同研討下的產物,目的是希望建立一套描述網路上電子文件特色的方法,來協助資訊檢索。研討會的中心問題是--如何用一個簡單的元資料記錄來描述種類繁多的電子物件?[註7] 主要的目標是發展一個簡單有彈性,且非圖書館專業人員也可輕易了解和使用的資料描述格式,來描述網路上的電子文件。

都柏林核心集的設計原理,有意義明確、彈性、最小規模三種特色。在設計上所秉持的原則是:內在本質原則、易擴展原則、無必須項原則、可重覆原則、和可修飾原則。[註8] 其中又以無必須項原則、可重覆原則、和可修飾原則這三個原則最具特色:

(一) 無必須項原則(Optionality):所有資料項都是可有可無的選擇項,以保持彈性和鼓勵各種專業人士參與製作。

(二) 可重覆原則(Repeatability):所有資料項均可重覆。

(三) 可修飾原則(Modifiability):資料項可用修飾詞來進一步修飾其意義。

都柏林核心集的欄位方面,祇有15個基本欄位(或項目),分別為

(一) 題名(Title):作品題名或名稱。

(二) 著者(Creator):作品的創作者或組織。

(三) 主題和關鍵詞(Subject):作品的主題和關鍵字(詞)。

(四) 簡述(Description):文件的摘要或影像資源的內容敘述。

(五) 出版者(Publisher):負責發行作品的組織。

(六) 其他參與者(Contributor):除了著者外,對作品創作有貢獻的其他相關人士或組織。〔註: 如書中插圖的製作者。〕

(七) 出版日期(Date):作品公開發表的日期。

(八) 資源類型(Type):作品的類型或所屬的抽象範疇,例如網頁、小說、詩、技術報告、字典等。

(九) 資料格式(Format):資訊的實體形式或者是數位特徵,也用來告知檢索者在使用此作品時,所須的電腦軟體和硬體設備。如果是電子檔案,建議使用MIME格式的表示法。

(十) 資源識別代號(Identifier):字串或號碼可用來唯一標示此作品,例如URN、URL、ISSN、ISBN等。

(十一) 來源(Source):資源的衍生來源,例如同一作品的不同媒體版本,或者是翻譯作品的來源等。

(十二) 語言(Language):作品本身所使用的語言,建議遵循 RFC 1766 的規定。

(十三) 關連(Relation):與其他作品(不同內容範疇)的關連,或所屬的系列和檔案庫。

(十四) 涵蓋時空(Coverage):作品所涵蓋的時期和地理區域。

(十五) 版權規範(Rights):作品版權聲明和使用規範。

有關各欄位的詳細闡釋、例子、與著錄要點,請參閱作者《都柏林核心集在UNIMARC和機讀權威紀錄格式的應用探討》一書中的第一章第四節「基本欄位」。[註9] 至於都柏林核心集修飾詞的內涵與演變,請參閱上述專著的第一章第五節「修飾詞」和第五章第一節「DC/RDF模型」中的介紹。[註10]

三、機讀編目格式和都柏林核心集的比較分析

機讀編目格式和都柏林核心集這兩種資料格式,在設計上的主要差異,可以從下面三個角度來分析:欄位的繁簡、檢索概念、與資料重複處理等。

首先就欄位的繁簡設計而言,機讀編目格式的上百個欄位,顯然是過於複雜,以使用者檢索的角度,最常用的欄位,不外乎題名、著者、出版者、出版年、主題(Subject)、ISBN(或ISSN)、分類號等。即便再加上若干因應館員資料管理需求而有的欄位,也不應超過三十以上。就此點而言,都柏林核心集的設計是較為合理和務實的。

進一步就機讀編目格式的欄位來析,導致其欄位數目過多的主因為:

(一) 處理的資料類型過於龐雜:為了容納各種不同資料類型的個別差異和特色,新的欄位或分欄不斷加入,使其逐漸臃腫和複雜。而都柏林核心集祇取最常使用核心欄位的理念,相較之下是較有吸引力和受歡迎的。

(二) 檢索概念錯誤:由於仍侷限在卡片目錄時代的檢索設計,導致甚多的欄位資料重複,詳細分析請參見下面的說明。

(三) 扮演角色過多:將原本可透過其他方式處理的事項,硬性由資料格式層次來解決,也增加許多不必要的欄位,例如國際機讀編目格式的Coded Information Block,或者是中國機讀編目格式的代碼資料段。

檢索概念而言,卡片目錄由於其物理性質的限制,除非再以人為方式加以變動,否則祇能以固定的排列形式存在,因此在卡片目錄時代,圖書館為了方便讀者能從不同的角度來查尋館藏,乃有標目與檢索款目的概念,並組合成四種最常見的目錄:書名目錄、著者目錄、標題目錄、分類目錄。[註11] 換言之,檢索款目的用意在創造分身之卡片,以便分置於不同處,使得有某種相同資訊的卡片能匯集一處,達成協助讀者檢索到所有相關資料的目的。而標目則是置於起首,做為排列和檢索標準的檢索款目 [註12]。

雖然書目記錄在電腦實體上,也是以某種固定形式排列一如卡片目錄,然而不同的是,電腦可以很快速的透過程式,來隨意截取部分資料,或者以某種方式和條件來重組資料,簡言之,從使用者的角度來看,電子資料根本就無排列的問題。

事實上,現代檢索設計的基本理念,是假定所有欄位都可以檢索,在此前提下來討論那些敏感資料須要加以保護而不能被檢索。很不幸的,卡片目錄的檢索款目後來轉成檢索點(Access Point)的概念,繼續存在於機讀編目格式中,進一步導致資料重複,造成欄位過多和格式複雜的問題,例如國際機讀編目格式的Intellectual Responsibility Block,或者是中國機讀編目格式的著者及輔助檢索段。相較之下,都柏林核心集的設計是正確的,相關文獻中不層出現檢索款目或者檢索點的概念。

以資料重複而言,在資料庫興起以前,電腦界主要是以個別程式來管理檔案的檔案導向式系統來處理資料,但是往往因為同一系統內個別程式所使用的資料,彼此之間多少有些關聯和重疊,而導至檔案間的資料重複問題,以及伴隨資料重複而來的維護困難與資料不一致現象 [註13]。

為了解決資料重複以及伴隨而來的問題,於是有將程式與資料分離,然後將資料集中管理的概念產生,這就是所謂的「資料庫」。由上面的敘述可知,電腦資料庫系統的基本使命之一,就是要解決資料重複的問題,或是盡量避免資料重複的現象產生。這可由電腦教科書中,提到資料庫的優點時,一定會提及避免資料重複的特色可以看出 [註14-15]。

因此在都柏林核心集的使用者指引中 [註16],在敘述各個項目的著錄要點時,即多次提及避免重複已在其他項目中出現的資料:

1)在主題項中提及避免著者項已出現過的資料。

2)在出版者項中提及,若是出版者與著者相同則省略。

相反於都柏林核心集的避免資料重複,在機讀編目格式方面,卻由於未能及時擺脫許多在卡片目錄時代的設計理念和作業方式,導致資料重複的情形嚴重,以中國機讀編目格式第四版為例,除了前述的代碼資料段和著者及輔助檢索段外,也有許多個別欄位間資料重複的情形,如欄號510與欄號200 $d

四、網頁和書籍的長期資料著錄趨勢

以下作者就目前主要的兩種文字媒體—書籍與網頁,分析其目前的資料著錄現況,和可能的長期著錄趨勢。下面的分析主要從四個角度:數量、資料涵蓋面、處理方式、使用元資料種類來進行。

 

圖書

網頁

資料涵蓋面

處理方式

圖書館員人工著錄

電腦利用全文檢索自動摘取

使用元資料種類

機讀編目格式

全文索引

數量

相對少

相對多

 

就資料涵蓋面而言,一本書往往有數百頁,雖然不能說每頁的涵蓋面皆不同,但是書籍往往分成數章,每章中又再細分成數節,每節經常有其個自的主題,因此書籍的資料涵蓋面通常較大。換言之,書籍有如散彈槍,一打擊出去,往往在資料涵蓋面的靶上,形成一片的彈孔。

相反的,網頁的英文名稱為Web page,因此無論從其中文或英文名稱來看,一個網頁約略有如書中的一頁,因此網頁的資料涵蓋面通常甚窄。換言之,網頁有如手槍,射擊出去,往往祇在資料涵蓋面的靶上,形成一個彈孔。

所以就檢索系統嘗試找尋資料,來滿足讀者要求的難易度而言,網頁相對來說是較為困難許多,這也是搜尋引擎有很高「垃圾」比率的部份原因,因為搜尋引擎的主要處理對象是網頁。可是對以處理書籍為主的圖書館自動化系統而言,就甚少聽聞有類似於搜尋引擎的高「垃圾」比率現象,因為書籍資料涵蓋面廣,讀者在書中某一章節發現所需資料的機率較大。

書籍和網頁在資料涵蓋面先天上的差異,又被後天上的處理方式和使用資料格式給更進一步拉大。正常而言,對資料涵蓋面窄的網頁,應給予較精細的加工(描述),和較多的資訊,以提高其命中率;相反的,資料涵蓋面廣的書籍,相對來說就不須要太多的加工來提高其命中率,因為在成本效益上可能是不划算的。

目前我們對兩者的處理方式,由於歷史等因素,剛好與上述的合理性相左。由於印刷媒體已出現千年以上,長久以來必須倚靠人工處理,更隨著時間與經驗的逐漸累積,在處理上越來越精細,附加的資訊(欄位)也越來越豐富。發展至今,圖書是由專業的資料描述人員(圖書館員)來加工,使用的資料格式--機讀編目格式,也是非常的完備和複雜。

就網頁而言,出現於1990年左右,此時電腦和網際網路已非常發達和普及,人們自然會想到利用電腦來處理,因此全球資訊網盛行時,第一個用來檢索網頁的工具是搜尋引擎,它以全文檢索的技術為主,由於全文檢索採用電腦自動斷字詞的方式,有「一網打盡」的特色,其副作用是精確率低。另外搜尋引擎所附加的其他資訊也甚少,大概祇有URL、日期、篇名、檔案大小、網頁的第一或二個句子等。

從以上的分析不難看出,以資料涵蓋面來看,圖書已經是過度加工,其長期的合理趨勢應該是逐漸裁減其附加資訊,以較簡單的元資料格式,如都柏林核心集,來取代複雜的機讀編目格式。

網頁由於其數量過於龐大,雖然須要較精細的加工,但是卻無法單獨依靠圖書館員來處理,可是目前的機器智慧技術,又無法創造出合乎品質的附加資訊,因此大多數須要透過「作者著錄」的方式,由網頁的創造者自行著錄。因為網頁的創造者並非專業的資料描述人員,自然不可能要求其使用複雜的機讀編目格式,所以較合理的作法,也是使用較簡單的元資料格式,如都柏林核心集。由目前電子圖書館(或是數位圖書館)和搜尋引擎領域的研究者,越來越重視元資料,尤其是都柏林核心集,更可以印證以上對資源描述長期趨勢的分析。

五、結語

機讀編目格式資料重複的情況來說,基本上1__代碼資料段與7__著者段,與其他段資料重複甚多,其它如3__附註段和6__主題分析段,也存在有資料重複的情形。不過,詳細分析和討論機讀編目格式中,每一欄號間的可能重複情形,並非本文的重點。所以在上面表格中,1__代碼資料段與7__著者段的欄號仍然予以對照,但在實際資料轉換時,可以視情況予以省略,以避免資料重複太多。至於欄號間可能的重複情形,讀者請參考《中國機讀編目格式第三版中「相關欄位」的說明,以及機讀編目格式在都柏林核心集的應用探討》一書中第三章表格後的說明與解釋。

註釋

 1:L. M. Chan, Cataloging and Classification: An Introduction (New York, NY: McGraw-Hill, 1994), p. 403.

 2:同前註,頁44。

  3:A. S. Tanenbaum, Computer Networks (Upper Saddle River, NJ: Prentice-Hall, 1996), p. 681.

 4:吳政叡,「從元資料看未來資料著錄的發展趨勢」,資訊傳播與圖書館學4 卷 2 期(民 86 年 12 月),頁42-52。

 5:利用電腦來將全文斷字取關鍵字做索引的方式,在圖書館界早已行之有年,並非始自搜尋引擎,讀者請參閱何光國《圖書資訊組織原理》一書之第十五章第七節「索引法」的介紹。何光國,圖書資訊組織原理(台北市:三民書局,民 79 年 6 月)。

 6:吳政叡,「三個元資料格式的比較分析」,中國圖書館學會會報 57 期(民 85 年 12 月),頁 35-45。

 7:Stuart Weibel, Jean Godby, Eric Miller, and Ron Daniel, OCLC/NCSA Metadata Workshop Report, 1995, <http://www.oclc.org:5047/oclc/research/publications/ weibel/metadata/dublin_core_report.html>, p. 3

 8:吳政叡,三個元資料格式的比較分析,中國圖書館學會會報 57 期(民 85 年 12 月),頁39-40。

 9:吳政叡,都柏林核心集在UNIMARC和機讀權威紀錄格式的應用探討,(台北市:學生,民 88 年10 月),頁16-25。

10:同前註,頁25-28與238-245。

11:黃淵泉,中文圖書分類編目學(台北市:學生,民 85 年 4 月),頁325-335。

12:同前註,頁55。

13:G. B. Shelly, et.al., Discovering Computers 98: A Link to the Future (Cambridge, Massachusetts: International Thomson Publishing, 1998), pp. 9.13-9.14.

14:A. Tsai, Database Systems: management and use (Scarborough, Ontario: Prentice-Hall canada Inc., 1988), p. 5.

15:同註10,頁9.14。

16:D. Hillman, User Guide Working Draft, 31 July 1998, <http://purl.org/dc/core/documents/working_drafts/wd-guide-current.htm>, pp. 8-9.