吳政叡 (Cheng-Juei Wu)
輔仁大學圖書資訊系專任副教授
E-mail: lins1022@mails.fju.edu.tw
中文摘要
由於網際網路和全球資訊網的盛行,使得網路各式資源所蘊含的資訊量越來越重要,因此圖書館也必須將網頁和其他的資源納入處理。但是,網頁「作者著錄」的特色和MARC適合專業人士的性質,無可避免的使都柏林核心集這種能同時適合專業與非專業資料描述人士的元資料,在成本與維護等因素的考量下,成為未來圖書館主要的資料描述格式,因此圖書館資訊組織的方式和工具都產生極大的變化。本文先從整個時代的趨勢來探討元資料和都柏林核心集的興起背景,接著介紹都柏林核心集的發展現況,最後作者從編目規則手冊、機讀編目格式、機讀權威記錄格式等三方面,來探討如何架構圖書館新的技術服務舞台於都柏林核心集。
關鍵字:都柏林核心集,元資料,中國編目規則,機讀編目格式,機讀權威記錄格式,Dublin Core,Metadata,Chinese cataloguing Rules,MARC,Authority Record。
一、時代趨勢與元資料
1990年代在資訊的處理和檢索相關領域中,幾個最耀眼的名詞是:網際網路(Internet)、全球資訊網(World-Wide Web)、搜尋引擎(Search Engine)、國家資訊基礎建設(National Information Infrastructure)、電子圖書館(Digital Library)、元資料(Metadata)。[註 1] 網際網路是自1969年以來連結全世界的一個大網路,全球資訊網(Web)是1990年代初誕生的一種建基於網際網路上的加值型服務,而搜尋引擎則是因應全球資訊網網頁檢索需求而來的一種檢索工具。在未來的發展上,國家資訊基礎建設將成為網際網路的後繼者,電子圖書館將逐漸取代傳統圖書館所扮演的角色,成為一個資訊處理和提供的統合中心,而元資料將在未來的電子圖書館中,扮演如同目錄在傳統圖書館中的角色,提供處理和檢索電子資料所需的必要資訊。
從資訊傳播的角度來看,資訊的傳播方式在網際網路和WWW盛行前,是主要以下面的方式進行: 資料提供者--> 圖書館和其他中介機構 --> 資料使用者,其主要的特色是間接傳播,也就是資料提供者(如出版社)和資料使用者(如個人)間,由於空間和距離等的限制,並無有效率的直接溝通管道,因此知識的傳播和銷售,往往需要透過一些中介機構,如圖書館和書店的幫助,其中圖書館是社會公共機構的一環,所以圖書館扮演了資料儲存和傳播者的主要角色。為了有效達成做為媒介者和橋樑的角色,使圖書館能夠有效率的來管理所擁有的資料,以便使用者可以很快找到所需的資料,圖書館須要有一套很好的方法,來描述所收藏的資料。於是有目錄的產生,來提綱契領的整理資料,和對資料加以適當的描述,以協助資料的檢索和管理。
從資訊科技的角度來看,雖然今日電腦科技突飛猛進,電子媒體儲存資料的能力大增,電腦的運算速度驚人,但是有效率的檢索,仍是一個重要的問題亟待解決,從今日人們在使用搜尋引擎時所面臨的困境,已非常清楚的顯示此論點。換言之,為了資料檢索和管理的需要,對資料的適當描述仍是必須的,因此某種形態的電子目錄有其必要性,而這正是元資料在現代資料處理上所扮演的
元資料(Metadata)最常見的英文定義是 "data about data" [註 2],可直譯為描述資料的資料,其定義和內涵則各家說法不同,以下列舉數例如下:
M. Day 和 A. Powell 認為元資料是 [註 3]
資料用來協助對網路資源的識別、描述、指示位置。
L. Dempsey 和 R. Heery 定義為 [註 4]
描述資料屬性的資料,用來支持如指示儲存位置、資源尋找、文件紀錄、評價、過濾等功能。
作者認為元資料是 [註 5]
用來揭示各類型電子文件(或資源)的內容和其他特性,以協助對資料的處理和檢索,其典型的作業環境是電腦網路的作業環境。
元資料因其處理對象與功能的不同,而有各式各樣的種類。一般而言,越複雜的欄位設計,其製作成本越大,每筆記錄的著錄時間相對較長,著錄人員所須的專業程度越高,如圖書館普遍使用的機讀編目格式。S. Weibel等三位學者在「The 4th Dublin Core Metadata Workshop Report」中按欄位的有無和複雜程度,將資源描述性資料分成下面五種: [註 6]
(一) 全文索引化 – 主要使用電腦來製作索引,如一般的搜尋引擎Infoseek等。
(二) 無欄位名詞集 – 由一群未結構化的(即無欄位屬性)的名詞組成,例如由作者或圖書館員所給的關鍵字。
(三) 基本欄位架構 -- 由少量有明確意義的基本欄位組成,例如IAFA(Internet Anonymous FTP Archives)/whois++ templates和無修飾詞的都柏林核心集。
(四) 修飾詞欄位架構 -- 有修飾詞來進一步規範一群的基本欄位,例如都柏林核心集的坎培拉修飾詞。[註 7]
(五) 複雜結構 -- 欄位架構複雜完整,例如 MARC(Machine-readable cataloging)、TEI(Text Encoding Initiative)等。
至於常見元資料的清單,國際圖書館協會聯盟(International Federation of Library Association and Institutions,簡稱 IFLA)在描述元資料資源的首頁中 [註 8],列舉了以下的元資料種類: Dublin Core、EAD(Encoded Archival Description)、FGDC Content Standards for Digital Geospatial Metadata、GILS (Government Information Locator Service)、IAFA/whois++ templates、MARC、PICS (Platform for Internet Content Selection)、SHOE (Simple HTML Ontology Extensions)、SOIF(Summary Object Interchange Format)、SHOE(Simple HTML Ontology Extensions)、TEI、X3L8 Proposed ANSI standard for data representation。
那何種元資料將會脫穎而出成為未來圖書館使用的主要格式?作者以為可從使用者的角度來觀察,目前的三個主要資料來源是書目資料、光碟資料庫、網頁。光碟資料庫的主要特色為較詳盡的摘要,但大都由私人的商業公司來發行和掌握,使用的格式和呈現的風貌,亦隨不同的公司而有很大的差異,短時間內看不出有統一的跡象。書目資料是由圖書館及其相關機構所創造和應用,長久以來是圖書館提供服務的主要依據。網頁則是1990年代WWW興起後的產物,目前其資料量以極驚人的速度在膨脹,資源所包含的層面和種類極為豐富。
由於WWW已經普遍深入社會各角落和一般民眾的日常生活中,網頁上的資料也越來越豐富和重要,圖書館作為社會主要的資料處理和傳播機構之一,已無法再忽視網頁,而須思考如何將網頁納入館藏來加以處理,因此可預知書目資料與網頁的合併處理,已是必然的趨勢。然而,書目資料與網頁的主要著錄者,卻是截然不同類型的人,書目資料主要由圖書館專業館員負責,對書目著錄資料的品質要求極高;相反的,網頁由於數量龐大,必須由網頁的創作者自行描述。因此圖書館員須要較複雜完整的資料格式,而網頁的「作者著錄」則要求簡單和成本低的資料格式。綜合來說,我們需要有一種簡單有彈性,能同時適合專業和非專業著錄人員的元資料格式,而都柏林核心集正可以符合這些要求。
都柏林核心集(Dublin Core)創始於1995 年 3 月由國際圖書館電腦中心(Online Computer Library Center,簡稱OCLC)和 National Center for Supercomputing Applications(NCSA)所聯合贊助的研討會,是五十二位來自圖書館、電腦、網路方面的學者和專家共同研討下的產物。目的是希望建立一套描述網路上電子文件特色的方法,來協助資訊檢索。研討會的中心問題是--如何用一個簡單的元資料記錄來描述種類繁多的電子物件?[註 9] 主要的目標是發展一個簡單有彈性,且非圖書館專業人員也可輕易了解和使用的資料描述格式,來描述網路上的電子文件。
都柏林核心集的設計原理,有意義明確、彈性、最小規模三種特色。在設計上所秉持的原則是:內在本質原則、易擴展原則、無必須項原則、可重覆原則、和可修飾原則。以下是這些原則的簡要敘述:[註10]
(一) 內在本質原則(Intrinsicality):祇描述跟作品內容和實體相關的特質,例如主題(subject)屬於作品的內在本質。但是收費和存取規定,則屬於作品的外在特質,原則上不屬於核心資料項,將透過其他機制來加以處理。
(二) 易擴展原則(Extensibility):應允許地區性資料以特定規範的方式出現,也應保持元資料日後易擴充的特性,以及保有向後相容的能力。
(三) 無必須項原則(Optionality):所有資料項都是可有可無的選擇項,以保持彈性和鼓勵各種專業人士參與製作。
(四) 可重覆原則(Repeatability):所有資料項均可重覆。
(五) 可修飾原則(Modifiability):資料項可用修飾詞來進一步修飾其意義。
在都柏林核心集的欄位方面,因為其目標是定位於一個簡單有彈性,且非專業人員也可輕易了解和使用的資料描述格式,所以都柏林核心集祇規範那些在大多數情況下,必須提及的資料特性。以下介紹都柏林核心集的15個基本欄位,不包括修飾詞的介紹,此即是所謂的「無修飾詞都柏林核心集」(Unqualified Dublin Core),也是DC5中的「簡單都柏林核心集」(Simple Dublin Core)。此部份的都柏林核心集目前已在進行標準化過程中,其文件編號為RFC 2413。[註11] 以下根據Dublin Core Metadata Element Set Reference Description (version 1.1)[註12] 和都柏林核心集使用指引草案 [註13],再揉合作者自身的經驗,逐一介紹15個基本欄位如下。同時由於以RDF/XML方式來實作都柏林核心集,雖然已由資料模型工作小組提出一份草案,但在此刻還是處於發展階段,因此以下範例仍以發展較為成熟的HTML格式呈現。
(一) 題名(Title):作品題名或名稱。
著錄要點:如果有數個可能的名稱可選擇,則以重覆欄位的方式來逐一著錄。如果著錄的對象為HTML文件,則應將<HEAD></HEAD>中<TITLE></TITLE>的字串收入此欄位。
例子:<META NAME=”DC.Title” CONTENT=”都柏林核心集與元資料系統”>。
(二) 著者(Creator):作品的創作者或組織。
著錄要點:如果有數個著者,則盡量以重覆欄位的方式來逐一著錄。著錄時以姓先名後的方式填寫。若是機構名稱的全名,則在可截斷處切割,並以由大到小排列方式,排列時以實心小黑點或句點為分割符號。有參與此資源創作,但貢獻程度較少者,著錄於下面的其他參與者欄位中。
例子一:<META NAME=”DC.Creator” CONTENT=”Abeyta, Carolyn”>。
例子二:<META NAME=”DC.Creator” CONTENT=”中華民國。外交部”>。
(三) 主題和關鍵詞(Subject):作品的主題和關鍵字(詞)。
著錄要點:鼓勵使用控制語彙,並以架構修飾詞(Scheme Qualifier)或是內容值修飾詞(Value Qualifier)註明出處,如 LCSH(美國國會圖書館主題標題表)。圖書館使用的分類號如杜威十進分類號(Dewey Decimal Number)等亦置於此欄位。避免使用太過於一般化的字(詞),可從欄位題名(Title)和簡述(Description)中尋找適當的字(詞)。若關鍵詞是人或機構名稱,則以不重複在其他欄位如著者(Creator)等已出現的字詞為原則。
例子:<META NAME=”DC.Subject” CONTENT=”都柏林核心集”>。
(四) 簡述(Description):文件的摘要或影像資源的內容敘述。
著錄要點:可包含摘要、目次、內容描述等,盡量簡短,濃縮成數個句子。
(五) 出版者(Publisher):負責發行作品的組織。
著錄要點:若是人或機構名稱與著者欄位重複,則不再著錄。其餘著錄要點參考著者欄位。
例子:<META NAME=”DC.Publisher” CONTENT=”漢美出版社”>。
(六) 其他參與者(Contributor):除了著者外,對作品創作有貢獻的其他相關人士或組織。〔註: 如書中插圖的製作者。〕
著錄要點:參考著者欄位。
(七) 出版日期(Date):作品公開發表的日期。
著錄要點:建議使用如下格式– YYYY-MM-DD和參考下列網址:http://www.w3.org/TR/NOTE-datetime。在此網頁中規範有六種格式,都是根據國際標準日期暨時間格式 – ISO(國際標準組織)8601制定而成,是ISO 8601的子集合(subset),以下祇列舉其中一種形式以供參考:[註 14]
(1) Complete date(完整日期)-- YYYY-MM-DD。
例子:<META NAME=”DC.Date” CONTENT=”1997-09-07”>(西元1997年9月7日)。
(八) 資源類型(Type):作品的類型或所屬的抽象範疇,例如網頁、小說、詩、技術報告、字典等。
著錄要點:根據DC中資源類型工作小組的草案,[註 15]此外也可參考網頁 http://sunsite.berkeley.edu/Metadata/minimalist.html。[註 16] 在資源類型工作小組的草案中,將作品的類型分成以下數種,現在列舉和解說如下:
(1) Text(文字)-- 作品的內容主要是供閱讀的文字(可夾帶影像、地圖、表格等),例如書籍、文集、技術報告、小冊子等。此外文字的少掃瞄影像檔案,也列入此範疇。
例子:<META NAME=”DC.Type” CONTENT=”Text”>。
(2) Image(影像)-- 相片、圖形、動畫、影片等。
(3) Sound(聲音)-- 各式各樣的聲音,例如演講、音樂等。
(4) Software(軟體)-- 可執行的程式(二進制檔)和程式的原始檔,但不包括各種互動式應用程式。
(5) Dataset(資料集)-- 各種文字或數據資料的集合體,例如地理資料、書目記錄、統計數據、遙測資料等。
(6) Interactive Resource(互動式應用)-- 設計給一個或多個使用者的互動式應用,例如遊戲軟體、線上聊天服務、虛擬實境等。
(7) Physical Object(實物)-- 三度空間的實物,例如人、汽車等。
(8) Collection(集合體)-- 因有共同來源或是因為管理目的而成的集合體。
(9) Service(服務)-- 支持與使用者互動的系統或是機構活動,例如Webpack、FTP site、BBS等。
(10) Event(事件)-- 與時間有關的事情,例如展覽、會議、表演等相關資訊。
(九) 資料格式(Format):資訊的實體形式或者是數位特徵,也用來告知檢索者在使用此作品時,所須的電腦軟體和硬體設備。如果是電子檔案,建議使用MIME格式的表示法。
著錄要點: 例如text/html、ASCII、Postscript(一種印表機通用格式)、可執行程式、JPEG(一種通用圖像格式),建議使用MIME格式的表示法,有關MIME格式的詳細資訊,請參考RFC 1521。亦可擴展至非電子文件,例如book(書本)的高廣尺寸。必要時亦可將檔案大小、圖形解析度、實體尺寸等資料納入。
例子一:<META NAME=”DC.Format” CONTENT=” text/html”>。
(十) 資源識別代號(Identifier):字串或號碼可用來唯一標示此作品,例如URN、URL、ISSN、ISBN等。
著錄要點:系統代碼或內部識別號亦可置於此欄位。
例子:<META NAME=”DC.Identifier” CONTENT=” 957-15-0930-2”>。
(十一) 來源(Source):資源的衍生來源,例如同一作品的不同媒體版本,或者是翻譯作品的來源等。
著錄要點:盡可能包含來源作品的資訊,以協助查尋。
(十二) 語言(Language):作品本身所使用的語言。
著錄要點:建議遵循 RFC 1766 的規定,請參考下列網址:http://info.internet.isi.edu/in-notes/rfc/files/rfc1766.txt,[註 17] RFC 1766 是使用 ISO 639的二個字母的語言代碼,[註 18]此外可再使用 ISO 3166來附加二個字母的國家代碼。[註 19]
例子:<META NAME=”DC.Language” CONTENT=”zh-tw”> 。(中文繁體字 Big-5)
(十三) 關連(Relation):與其他作品(不同內容範疇)的關連,或所屬的系列和檔案庫。
著錄要點:盡量使用Subelement Qualifier(或是RDF之Element Qualifier)來標示兩者的關係。
例子:<META NAME=”DC.Relation” CONTENT=” http://www.blm.gov/”>。
(十四) 涵蓋時空(Coverage):作品所涵蓋的時期和地理區域。
著錄要點:鼓勵使用控制語彙。
例子:<META NAME=”DC.Relation” CONTENT=”Taipei, Taiwan”>。
(十五) 版權規範(Rights):作品版權聲明和使用規範。
著錄要點:使用文字說明或是URL。
例子:<META NAME=”DC.Rights” CONTENT=”無限制”>。
為了豐富都柏林核心集的內涵和擴大其應用範圍,在都柏林核心集的第四次研討會中,確立了「坎培拉修飾詞」,正式收納了三種修飾詞 -- 語言修飾詞(Lang)、架構修飾詞(Scheme)、次項目修飾詞(Subelement) [作者註:原稱為類別修飾詞(Type)]。[註 20]
這三種修飾詞中,除了語言修飾詞是一直遵循RFC 1766的規定,使用 ISO 639的二個字母的語言代碼外。其餘的二種修飾詞,雖然在功能或作用上並無太大變化,但在名稱和實作機制上卻有非常大的演變。
至於名稱和實作機制目前分為兩支,已經發展成熟的是DC/HTML,使用的名稱為架構修飾詞(Scheme)和次項目修飾詞(Subelement),使用的格式為HTML 4.0,其呈現的形式如下:
<Meta Name="DC.Creator.Homepage" Scheme="URL" Lang="zh-tw" Content=http://dimes.lins.fju.edu.tw/>
由上例可明顯看出DC/HTML的實作機制,若以數學中集合(Set)的術語來闡釋,以架構修飾詞(Scheme Qualifier)為例,是以架構修飾詞(Scheme)為集合的名稱,而URL、ISBN、LCSH等為集合中的元素(Element)。所以DC/HTML的修飾詞實作機制是「集合--元素」,其中集合可以Scheme或Subelement來替換,元素則由相關的內容值(例如URL)來取代。
至於目前尚在發展中一支為DC/RDF,使用的名稱為內容值修飾詞(Value Qualifier)、項目修飾詞(Element Qualifier)、內容值成份(Value Component),其中的內容值修飾詞(Value Qualifier)與DC/HTML之架構修飾詞(Scheme Qualifier)約略對映,項目修飾詞(Element Qualifier)則與DC/HTML之次項目修飾詞(Subelement Qualifier)約略對映,其中一種可能的呈現形式如下:[註 21]
<dc:identifier>
<rdf:Description>
<rdf:value> 957-15-0930-2</rdf:value>
<dcq:identifierScheme>
<dct:ISBN />
</dcq: identifierScheme >
</rdf:Description>
</dc:identifier >
由上例可看出DC/RDF的實作機制,若以數學中集合(Set)的術語來闡釋,是以內容值修飾詞(Value Qualifier)為集合的名稱,以資源識別代號架構(identifierScheme)為次集合名稱,而ISBN為次集合中的元素(Element)。所以DC/RDF的修飾詞實作機制是「集合--次集合--元素」,其中集合可以Value Qualifier或Element Qualifier來替換,次集合為identifierScheme或identifierType等,元素則由相關的內容值 (例如ISBN)來取代。
此外部份的DC/HTML之次項目修飾詞(Subelement Qualifier)將獨立到內容值成份(Value Component)中,主要是與個別資源無關的資料,例如作者的e-mail、網頁網址、電話、住址等,其呈現的形式如下:[註 22]
<dc:creator>
<rdf:Description>
<vcard:fn>Cheng-Juei Wu</vcard:fn>
<vcard:email>lins1022@mails.fju.edu.tw</vcard:email>
<vcard:org>Fu-Jen University</vcard:org>
</rdf:Description>
</dc:creator>
由以上的解釋,可知DC/RDF就機制而言是較為週延完備和有彈性,但也較為複雜和處理成本高。不過DC/RDF目前尚在發展初期,不似DC/HTML已經發展成熟且被廣泛使用,因此以下關於修飾詞的介紹,仍以DC/HTML為主,但仍會適時插入DC/RDF的相關說明。
從另一方面來說,就修飾詞的功能或作用而言,DC/HTML與DC/RDF兩者是大致相同的。再者,修飾詞的內容才是真正蘊含資訊的處所,主要是與被描述資源的特性有關,與實作機制或是呈現格式無關。從這個角度來看,作者認為我們的注意力應該放在修飾詞的內容值,而非其呈現格式。
由於未來圖書館合併處理書目資料與網頁的趨勢,加上網頁「作者著錄」的特色和MARC適合專業人士的性質,無可避免的使都柏林核心集這種能同時適合專業與非專業資料描述人士的元資料,在成本與維護等因素的考量下,成為未來圖書館主要的資料描述格式。
因為都柏林核心集原本就是為了描述網路上各式資源而設計的,因此用來處理Web的網頁與網路上的資源,自是駕輕就熟。但是對於書目資料而言,根據作者在協助梵諦岡傳信大學圖書館處理其中文館藏的經驗,以及非正式訪問數位圖書館編目館員的心得,發現雖然在理論上用都柏林核心集來處理書目資料是毫無問題的,但是若不在修飾詞的使用上善加安排,同時在介面上加以適當的修飾,否則在實際的操作上將非常困難和達不到良好的效果。
為了解不同介面設計對圖書館員的影響,作者曾請研究生就都柏林核心集的原始著錄介面(如圖1),和使用圖書館專業術語的模擬著錄介面(如圖2),訪問數位圖書館編目人員。發現圖書館員對於圖1都柏林核心集的原始著錄介面非常不適應,因為他們對於都柏林核心集的欄位並不了解,同時很多圖書館或MARC中的欄位與這些都柏林核心集的欄位,並沒有很明顯的對映關係。相反的,對於圖2使用圖書館專業術語的模擬著錄介面,則覺得很容易接受。


圖 2. 使用圖書館專業術語的模擬著錄介面之部分畫面。
從圖書館技術服務和資料描述的角度來看,編目規則手冊、機讀編目格式、機讀權威記錄格式可以說是三個主要的支柱和工具。編目規則手冊不但是圖書館員資料描述和著錄的主要依據,也蘊含圖書館界千百年來對書籍處理的經驗,因此絕對有必要加以吸收和轉移到以都柏林核心集為主的新技術服務舞台。雖然編目規則手冊大部份的精神和規則都可以直接加以沿用,但是仍有部份的條文須要依據都柏林核心集格式的特性,以及時代的新趨勢,來加以適當的修改或是刪除與新增。
機讀編目格式(MARC)是目前圖書館自動化處理的基礎,也是系統所使用的資料格式。雖然新的技術服務舞台是使用都柏林核心集為資料描述的格式,而非機讀編目格式,但是基於以下的理由,從機讀編目格式到都柏林核心集的轉換對照表,對架構新的技術服務舞台仍是非常重要的。
(一) 現存的書目資料幾乎都是以MARC的形式儲存,而且這些書目資料是透過專業館員而產生的高品質著錄資料,其保存價值是無庸置疑的,因此須要有一份對照表,將這些書目資料轉換成都柏林核心集的格式。
(二) 轉換對照表是創造模擬環境或介面的基礎。由於現在工作的圖書館專業館員大都非常熟悉機讀編目格式,相對的,對於都柏林核心集則較為陌生。因此製作一個圖書館員熟悉的操作介面或著錄環境,並且使用圖書館員了解的專業術語,可使圖書館員能在最短的時間內,學習到如何使用都柏林核心集來著錄,也有較充裕的時間來調整和適應新的資料描述格式。
機讀權威記錄格式長久以來在書目資料的品質控制和檢索的輔助上,佔有非常重要的地位,因此也有必要製作機讀權威記錄格式到都柏林核心集的轉換對照表,使得書目資料的品質控制工作,在以都柏林核心集為主的新舞台中仍得以持續。
以下作者將截至目前為止,個人在編目規則手冊、機讀編目格式、機讀權威記錄格式等三方面轉換對照和修改的研究成果介紹如下,尚祈各位先進和同好不吝指正。由於篇幅限制,祇能以較簡潔的方式呈現,因此每種轉換對照表祇寫出對照表的製作方法,以及列出少數對照條文做為範例,同時所有的對照表和範例均採用較成熟的DC/HTML格式。對照表的全部內容和詳細說明,請參考作者的以下文章:從都柏林核心集看中國編目規則的連續性出版品著錄 [23]、中國機讀編目格式到都柏林核心集的轉換基本原則 [24]、中國機讀權威記錄格式到都柏林核心集的轉換對照表 [25]、《機讀編目格式在都柏林核心集的應用探討》[26]、《都柏林核心集在UNIMARC和機讀權威記錄格式的應用探討》(即將由學生書局出版),或者到作者首頁中的著作目錄(網址:http://dimes.lins.fju.edu.tw/published-papers/ pub_list.html)。
如前所述,為了協助圖書館員來了解和使用都柏林核心集,作者根據中國編目規則的修訂版 [27],來逐條描述都柏林核心集的著錄方法,使國內的圖書館員能在最短的時間內,學習到如何使用都柏林核心集來著錄。另一方面,藉由逐條的討論,圖書館員也能很清楚的了解到新舊兩種著錄方法的差異。以下是對照表的製作方法、符號使用、共通注意事項的簡要說明:
(一) 完全以中國編目規則的規則編號為討論單位,例如1.1.1.2。
(二) 為了節省篇幅,祇有列出需要修改的規則編號和條文,未列出者表示可按照中國編目規則的原有方式著錄,惟須注意置放的欄位。
(三) 中國編目規則有很多的規定是與卡片目錄直接相關,由於卡片目錄一來已甚少使用,二來本文主要討論(WWW)線上著錄,因此中國編目規則這部份的相關規定並不適用,例如規則編號1.0.3標點符號中,即有很多符號是用於項目間,如分項符號(.--)和斜撇(/)。
(四) 在不妨礙讀者了解原規則條文的情況下,祇列出須要改變的條文部份,以達到清楚醒目和節省篇幅的目的。
(五) 都柏林核心集基本上並不區分正題名與第一著者等,且鼓勵以重覆欄位的方式來逐一著錄所有資料,例如一本書若有三位著者,則不必區分主要/次要著者,以重覆著者欄位三次的方式,來逐一著錄。
(六) 在都柏林核心集的著錄中,作品的語言是記載於欄位語言(Language,上述的欄位13)中;著錄資料本身所使用的語言,是以語言修飾詞(lang)來表達。
(七) 在中國編目規則中,大抵將著錄項目分成八項,而都柏林核心集有十五個欄位,為使讀者對兩者的對映,有一整體的印像,製作了以下的簡略表格。惟實際的對映,仍須以下面的介紹為依據。
|
中國編目規則 |
都柏林核心集 |
|
題名及著者敘述項 |
題名欄、著者欄、簡述欄、資源類型欄 |
|
版本項 |
簡述欄、其他參與者欄 |
|
資料特殊細節項 |
資料格式欄 |
|
出版項 |
出版者欄、出版日期欄 |
|
稽核項 |
資料格式欄、簡述欄 |
|
集叢項 |
題名欄、著者欄、簡述欄 |
|
附註項 |
題名欄、著者欄、簡述欄、資源類型欄、資源識別代號欄、關連欄、來源欄 |
|
標準號碼及其他必要記載項 |
資源識別代號欄、簡述欄、題名欄 |
(八) 中國編目規則在有些款目條文中,註明依其他款目著錄者,也請自行查閱在都柏林核心集的相同款目條文來著錄,因為在本文中是刻意完全依照中國編目規則的原款目,來一一加以探討的。
(九) 請注意表格中,在都柏林核心集這部份,有[說明]和[條文]兩種類型,[條文]是針對中國編目規則中的原條文加以修改,[說明]則不是條文的一部份。
表1. 中國編目規則和都柏林核心集對照表之少數對照條文範例。
|
中國編目規則 |
都柏林核心集 |
|
|
編號 |
條文 |
|
|
1.0.4.2 |
…、第一著者敘述、其他著者敘述、… |
[條文]…、著者敘述、… [說明] 都柏林核心集基本上沒有主要 /次要著者的區分。 |
|
1.0.5 |
…,於附註中說明之。 |
[條文]…,於簡述欄中說明之。 |
|
1.2 |
版本項 |
[說明] 除另有聲明,否則置於簡述欄,並在次項目修飾詞*中寫入「版本」。 |
|
1.5 |
稽核項 |
[說明] 除另有聲明,否則 (1) 數量單位置於資料格式欄,並在次項目修飾詞中寫入「數量單位」。 (2) 插圖及其他稽核細節置於資料格式欄,並在次項目修飾詞中寫入「插圖及其他」。 (3) 高廣、尺寸置於資料格式欄,並在次項目修飾詞中寫入「尺寸」。 (4) 附件置於簡述欄,並在次項目修飾詞中分別寫入「附件」。 |
|
1.7.1 |
… (1) 使用語文、譯作、改寫 … (4) 原名、異名、改名、缺名 … (6) 並列題名 … (14) 學位論文 … (17) 摘要 … (19) 內容 … (20) 號碼… (21) 合刊、合訂… (22) 實際館藏記載 |
[條文] … (2) 使用語文記載於語言欄位。譯作、改寫則使用關係欄位來說明原著,並在次項目修飾詞中寫入「譯作」或「改寫」。 … (4) 原名、異名、改名、缺名,使用關係欄位來說明,並在次項目修飾詞中寫入適當用語。 (6) 並列題名使用題名欄位,並在次項目修飾詞中寫入「並列題名」,語言修飾詞中註明語文種類。 … (14) 學位論文須另於資源類型欄位中註明。 … (17) 摘要使用簡述欄位,並在次項目修飾詞中寫入「摘要」。 … (19) 內容使用簡述欄位,並在次項目修飾詞中寫入「內容」。 … (20) 號碼(除1.8款所示者外) ,使用資源識別代號欄位,並在次項目修飾詞中寫入機構簡稱或適當用語。 (21) 合刊、合訂(參閱1.6款) ,使用關係欄位來說明,並在次項目修飾詞中寫入「合刊」。 (22) 實際館藏記載使用簡述欄位,並在次項目修飾詞中寫入「館藏」。 |
*本表格使用DC/HTML格式,請參考本文第二節中有關修飾詞的說明。
在機讀編目格式方面,作者根據中國機讀編目格式第四版 [註28],製作了一份從中國機讀編目格式(Chinese MARC)對映(轉換)到都柏林核心集的摘要表格。以下是轉換對照表的製作方法和符號使用的簡要說明:
(一) 中國機讀編目格式的基本對映單位是欄號以及其下的分欄,例如009 $a。
(二) 由於中國機讀編目格式在基本的對映單位 -- 分欄中,有時又包含數個不同的項目,因此對照表依據中國機讀編目格式的用法,在表格中有「位址」一欄,其意義和用法遵循中國機讀編目格式的規定。
(三) 中國機讀編目格式的基本欄號下,常常有所謂的「指標」,有些欄號有一個以上的指標,但是大部份的指標並不影響到轉換對照的結果,為了節省篇幅,轉換對照表中將指標的編號和內容結合起來,例如1-3表示指標1的值為3。
(四) 在表格中的都柏林核心集方面,列出了基本欄位和修飾詞,但是省略了語言修飾詞,因為在著錄時,同一資源的語言修飾詞基本上是相同的,對中國機讀編目格式來說,假設的語言修飾詞為中文(zh)。
(五) 雖然都柏林核心集允許自訂欄位的存在,但是為了顧及資料流通和交換的需要,轉換對照的基本原則是使用基本的15個欄位,然後利用修飾詞來容納新的需求。由於機讀編目格式是較完整和複雜的資料描述格式,為了盡量容納機讀編目格式的資料,某些都柏林核心集的欄位如簡述(Description)等,是以較有彈性的方式來使用。
(六) 由於表格甚長,為了解釋和閱讀上的便利,遵循中國機讀編目格式的體例,以欄號的百位數來分節(段)。
(七) 中國機讀編目格式的某些欄號內容是相同的,但是都柏林核心集基本上是不鼓勵重覆,因此有些中國機讀編目格式的欄號將被省略而不做對照。被省略的欄號,在每段對照表後的解說中,均有詳盡的說明;此外讀者也可由比對下列表格與中國機讀編目格式第四版而得知。
(八) 為求讀者對照閱讀的便利,以下解釋的例子,將盡量直接使用中國機讀編目格式第四版中相關欄號的例子。
(九) 因為有些情況須直接使用分欄的值於表格中,此時以{}表示,例如{$a}是將分欄a的值直接使用在表格中。
(十) 都柏林核心集中,若是欄位的內容已經能清楚的顯示其意義,則以不使用次項目修飾詞為原則。
(十一) 為了使資料在國際上的流通和交換暢通無阻,雖然是中國機讀編目格式的對照和轉換,作者仍然建議在現階段以英文來顯示都柏林核心集的15個基本欄位名稱,例如
< meta name= "DC.Description.裝訂" lang = "zh-tw" content = "平裝">。
但是修飾詞則以中文為主。理由是15個基本欄位的英文名稱應不會對讀者造成太大的負擔,但是修飾詞則是千變萬化,因此中文資料仍應使用中文名稱,除非是大家耳熟能詳的名詞如ISBN。再者,元資料(如都柏林核心集)通常是隱藏在幕後,或者是資料庫內,顯現給讀者時,基本欄位和次項目修飾詞會先行分離,此時系統製作者可以自行決定是否要將基本欄位的英文名稱轉換成中文。
(十二) 都柏林核心集中是用來描述資料,因此中國機讀編目格式欄號若是僅與機讀編目格式的(電腦)記錄有關,則予以省略,例如欄號001的系統控制號。
(十三) 如同前面章節所述,DC/HTML與DC/RDF在名稱、實作機制、呈現格式等方面皆不同。由於DC/HTML是發展已成熟,而DC/RDF尚處於發展初期,因此以下的討論和例子將以DC/HTML為主。不過,DC/HTML之架構修飾詞(Scheme Qualifier)約略與DC/RDF的內容值修飾詞(Value Qualifier)相對映;DC/HTML之次項目修飾詞(Subelement Qualifier)則約略與DC/RDF的項目修飾詞(Element Qualifier)相對映。
(十四) 由於DC/RDF的實作機制較為複雜,是「集合--次集合--元素」的形式,其中集合可以Value Qualifier或Element Qualifier來替換,次集合為identifierScheme或identifierType等,元素則由相關的內容值 (例如ISBN)來取代。同時根據資料模型工作小組最新的草案(1999年7月1日),所有15個基本欄位的Value Qualifier或Element Qualifier,都分別祇有內容值(次集合名稱) -- {欄位名稱}Scheme與{欄位名稱}Type,以欄位Title為例,即是 titleScheme和titleType。為節省篇幅,以下所有的表格標題欄,即以{欄位名稱}Scheme與{欄位名稱}Type方式來表達。
表2. 中國機讀編目格式第0段欄號的對照表之少數對照條文範例。
|
中國機讀編目格式 |
都柏林核心集 |
|||||
|
欄位 |
位址 |
指標 |
欄位 |
修飾詞 |
||
|
架構( **{欄位}架構) |
次項目( **{欄位}類別) |
|||||
|
011 $a |
|
|
資源識別代號 (Identifier) |
國際標準叢刊 號(ISSN) |
|
|
|
011 $b |
|
|
簡述(Description) |
|
裝訂 |
|
|
011 $d |
|
|
簡述(Description) |
|
發行方式 |
|
|
011 $y |
|
|
資源識別代號 (Identifier) |
國際標準叢刊 號(ISSN) |
國際標準叢刊 號取消碼 |
|
|
011 $z |
|
|
資源識別代號 (Identifier) |
國際標準叢刊 號(ISSN) |
國際標準叢 刊號錯誤碼 |
|
**代表DC/RDF所使用的修飾詞名稱。
在機讀權威記錄格式方面,作者根據國家圖書館出版的「中國機讀權威記錄格式」(民83)一書 [註29],製作了以下的中國機讀權威記錄格式對映(轉換)到都柏林核心集的摘要表格。由於機讀權威記錄格式轉換對照表的製作方法,與機讀編目格式相同,因此請參照前面的說明。
表3. 中國機讀權威記錄格式第0-1段欄號的對照表之少數對照條文範例。
|
中國機讀權威記錄格式 |
都柏林核心集 |
|||||
|
欄位 |
位址 |
指標 |
欄位 |
修飾詞 |
||