吳政叡 (Cheng-Juei Wu)
輔仁大學圖書資訊系專任副教授
Associate Prof.
Department of Library & Information Science
Fu-Jen University
E-mail: lins1022@fujens.fju.edu.tw
中文摘要
由於權威記錄在書目記錄品質控制和檢索上,扮演著重要的角色,為了推廣都柏林核心集在國內圖書館界的應用,使圖書館界在機讀權威記錄格式中所累積的資料,也能被都柏林核心集的系統所利用。本文介紹中國機讀權威記錄格式(Chinese MARC Format for Authority Records)到都柏林核心集的轉換,此外本文也詳細介紹了都柏林核心集的15個基本欄位的著錄要點。
=============================================================
Mapping the Chinese MARC Format for Authority Records to the Dublin Core
Abstract
This work discusses how to map the Chinese MARC Format for Authority Records to the Dublin Core. The Dublin Core is a relatively simple metadata for networked resources and is becoming increasingly popular among information retrieval related communities in recently years. The mapping tables and detailed analysis are given in this work. In addition, the usage of each element of the Dublin Core is given as well.
=============================================================
關鍵字:元資料,中國機讀權威記錄格式,都柏林核心集,Metadata,Chinese MARC Format for Authority Records,Dublin Core。
一、前言
元資料(Metadata)最常見的英文定義是 "data about data",可直譯為描述資料的資料,主要是描述資料屬性的資訊,用來支持如指示儲存位置、資源尋找、文件紀錄、評價、過濾等的功能。以圖書館的角度來看,就其本義和功能而言,元資料可說是電子式目錄,因為編製目錄的目的,即在描述收藏資料的內容或特色,進而達成協助資料檢索的目的。因此元資料是用來揭示各類型電子文件或檔案的內容和其他特性,其典型的作業環境是電腦網路作業環境。[註1] 換言之,元資料是因應現代資料處理上的二大挑戰而興起的:一是電子檔案成為資料的主流,另外一個是網路上大量文件的管理和檢索需求。
都柏林核心集為元資料的一種,是1995年3月由國際圖書館電腦中心(OCLC)和National Center for Supercomputing Applications(NCSA)所聯合贊助的研討會,在邀請五十二位來自圖書館、電腦、網路方面的學者和專家,共同研討下的產物,目的是希望建立一套描述網路上電子文件特色的方法,來協助資訊檢索。[註2] 因此在研討會的報告中,將元資料定義為資源描述(Resource Description),而研討會的中心問題是:如何用一個簡單的元資料記錄來描述種類繁多的電子物件?
國際圖書館電腦中心(OCLC)主導創設都柏林核心集的目的,是希望能一方面解決MARC在應付網路文件上的困境,另一方面能有一套簡單的資源描述格式,讓眾多非圖書館的專業人士來使用,以最少成本來解決網路文件快速增加的問題。由於國外都柏林核心集已經漸趨成熟,也開始被廣泛使用在一些與資訊檢索相關的應用系統中。
為了推廣都柏林核心集在國內的應用,使圖書館界在機讀編目格式中所累積的龐大資源,也能被都柏林核心集的系統所利用,在「機讀編目格式在都柏林核心集的應用探討」一書中 [註 3],作者已經完成了中國機讀編目格式(Chinese MARC,第四版)到都柏林核心集的轉換。[註 4]
同時為了協助圖書館員來了解和使用都柏林核心集於圖書著錄,不久之前,作者又撰寫一文,從都柏林核心集的觀點,來剖析中國編目規則中的第一章總則和第二章圖書。在此文中作者根據中國編目規則的修訂版 [註 5],來逐條描述都柏林核心集的著錄方法,使國內的圖書館員能在最短的時間內,學習到如何使用都柏林核心集來描述圖書館中的書籍。另一方面,也藉由逐條的討論,讓圖書館員能很清楚的了解到新舊兩種著錄方法的差異。
雖然上述的二個作品,已經對都柏林核心集在圖書館的應用,奠定了牢固的基礎。然而因為機讀權威記錄在書目記錄品質控制和檢索上,扮演著舉足輕重的角色,與機讀編目記錄相輔相成,也是圖書館書自動化系統中不可或缺的一環。因此為竟全功,將圖書館技術服務的舞台移轉至都柏林核心集,作者在本文中,根據國家圖書館在民國 83 年12月出版的中國機讀權威記錄格式(Chinese MARC Format for Authority Records)一書[註 6],嘗試將中國機讀權威記錄格式轉換對照到都柏林核心集,使圖書館界在機讀權威記錄格式中所累積的資料,也能被都柏林核心集的系統所利用。有了這鐵三角(編目規則、機讀編目記錄、機讀權威記錄)的組合,相信都柏林核心集在圖書館的落實與應用,已是指日可待之事。
二、都柏林核心集基本欄位和修飾詞使用簡介
本節主要是介紹都柏林核心集的15個基本欄位,不包括修飾詞的介紹,此即是所謂的「簡單都柏林核心集」(Simple Dublin Core)。根據1997年10月公布的資料著錄項目 [註7],和簡單都柏林核心集使用指引 [註8],逐一介紹15個基本欄位如下:(以下範例以HTML格式呈現)
(一) 主題和關鍵詞(Subject):作品的主題和關鍵字(詞)。
著錄要點:鼓勵使用控制語彙,並以架構修飾詞(scheme)註明出處,如 LCSH(美國國會圖書館主題標題表)。圖書館使用的分類號如杜威十進分類號(Dewey Decimal Number)等亦置於此欄位。避免使用太過於一般化的字(詞),可從欄位題名(Title)和簡述(Description)中尋找適當的字(詞)。若關鍵詞是人或機構名稱,則以不重複在其他欄位如著者(Creator)等已出現的字詞為原則。
(二) 題名(Title):作品名稱。
著錄要點:如果有數個可能的名稱可選擇,則以重覆欄位的方式來逐一著錄。如果著錄的對象為HTML文件,則應將<HEAD></HEAD>中<TITLE></TITLE>的字串收入此欄位。
(三) 著者(Creator):作品的創作者或組織。
著錄要點:如果有數個著者,則盡量以重覆欄位的方式來逐一著錄。著錄時以姓先名後的方式填寫。若是機構名稱的全名,則在可截斷處切割,並以由大到小排列方式,排列時以實心小黑點或句點為分割符號。
例子:<META NAME=”DC.Creator” CONTENT=”Abeyta, Carolyn”>。
例子:<META NAME=”DC.Creator” CONTENT=”中華民國。外交部”>。
(四) 簡述(Description):文件的摘要或影像資源的內容敘述。
著錄要點:盡量簡短,濃縮成數個句子。
(五) 出版者(Publisher):負責發行作品的組織。
著錄要點:若是人或機構名稱與著者欄位重複,則不再著錄。其餘著錄要點參考著者欄位。
(六) 其他參與者(Contributors):除了著者外,對作品創作有貢獻的其他相關人士或組織。〔註: 如書中插圖的製作者。〕
著錄要點:參考著者欄位。
(七) 出版日期(Date):作品公開發表的日期。
著錄要點:建議使用如下格式– YYYY-MM-DD和參考下列網址:http://www.w3.org/TR/NOTE-datetime。在此網頁中共規範有六種格式,都是根據國際標準日期暨時間格式 – ISO(國際標準組織)8601制定而成,是ISO 8601的子集合(subset),現在列舉和解說如下以供參考:[註 9]
(1) Year(年)-- YYYY。
(2) Year and Month(年、月)-- YYYY-MM。
(3) Complete date(完整日期)-- YYYY-MM-DD。
例子:<META NAME=”DC.Date” CONTENT=”1997-09-07”>(西元1997年9月7日)。
(4) Complete date plus hours and minutes(完整日期加時、分)-- YYYY-MM-DDThh:mmTZD
〔註:T用來隔開日期和時間,TZD表示本地時間和國際格林威治時間的差距(時間差)。〕
(5) Complete date plus hours, minutes, and seconds(完整日期加時、分、秒)-- YYYY-MM-DDThh:mm:ssTZD
(6) Complete date plus hours, minutes, and seconds(完整日期加時、分、秒)-- YYYY-MM-DDThh:mm:ss.sTZD
例子:<META NAME=”DC.Date” CONTENT=”1997-09-07T19:05:25.25+08:00”>(西元1997年9月7日台灣下午7點5分25又1/4秒)。
(八) 資源類型(Type):作品的類型或所屬的抽象範疇,例如網頁、小說、詩、技術報告、字典等。
著錄要點:建議參考下列網址 http://sunsite.berkeley.edu/Metadata/types.html。在上述網頁中將作品的類型粗分成以下數種:Text(文字)、Image(影像)、Sound(聲音)、Software(軟體)、Data(資料)、Interactive(互動式應用)、Physical Object(實物)、Compound/Mixed(混合型態)。以上的六種類型又以第一種類型(Text)最為繁複,可再細分如下:Abstract(摘要)、Advertisement(廣告)、Article(論文)、Correspondence(書信)、Dictionary(字典)、Form(表格)、Homepage(WWW首頁)、Index(索引)、Manuscript(手稿)、Minutes(會議紀錄)、Monograph(專論)、Pamphlet(小冊子)、Poem(詩)、Proceedings(會議論文集)、Promotion(促銷文件)、Serial(連續性出版品)、TechReport(技術報告)、Thesis(學位論文)。[註 10]
例子:<META NAME=”DC.Type” CONTENT=”文字.技術報告”>。
(九) 資料格式(Format):主要用途是告知檢索者在使用此作品時,所須的電腦軟體和硬體設備。
著錄要點: 例如text/html、ASCII、Postscript(一種印表機通用格式)、可執行程式、JPEG(一種通用圖像格式),建議使用MIME格式的表示法,有關MIME格式的詳細資訊,請參考RFC 1521。亦可擴展至非電子文件,例如book(書本)。必要時亦可將檔案大小、圖形解析度、實體尺寸等資料納入。
例子:<META NAME=”DC.Format” CONTENT=” text/html”>。
例子:<META NAME=”DC.Format” CONTENT=” image/gif 640 x 480”>。
(十) 資源識別代號(Identifier):字串或號碼可用來唯一標示此作品,例如URN、URL、ISSN、ISBN等。
著錄要點:系統代碼或內部識別號亦可置於此欄位。
(十一) 關連(Relation):與其他作品(不同內容範疇)的關連,或所屬的系列和檔案庫。
著錄要點:請參考關連工作小組的草案報告,網址是http://purl.oclc.org/metadata/dublin_core/wrelationdraft.html。[註11]
(十二) 來源(Source):作品的衍生來源。
著錄要點:作品從何處衍生而來(同內容範疇),例如莎士比亞的某個電子書出自那個紙本。
(十三) 語言(Language):作品本身所使用的語言。
著錄要點:建議遵循 RFC 1766 的規定,請參考下列網址:http://ds.internic.net/rfc/rfc1766.txt,RFC 1766 是使用 ISO 639的二個字母的語言代碼。[註 12]
(十四) 涵蓋時空(Coverage):作品所涵蓋的時期和地理區域。
著錄要點:請參考涵蓋時空工作小組的草案報告,網址是http://www.alexandria.ucsb.edu/docs/metadata/dc_coverage.html。[註13]
(十五) 版權規範(Rights):作品版權聲明和使用規範。
著錄要點:可能值如下:[註14]
(1) 空白(Null):無特別聲明,使用者須自行參考其他來源。
(2) 無限制(No Restriction on Reuse):可複製再傳播。
(3) 參考處(URI or Other Pointer):使用的相關說明,在所指定的出處。
例子:<META NAME=”DC.Rights” CONTENT=”無限制”>。
為了豐富都柏林核心集的內涵和擴大其應用範圍,1997年3月在澳洲坎培拉(Canberra)的國家圖書館,舉辦了都柏林核心集的第四次研討會(簡稱DC-4),與會者是65位包括電子圖書館研究者、網際網路專家、圖書館員等人士。根據『The 4th Dublin Core Metadata Workshop Report』一文的描述 [註15],會議的主要成果是「坎培拉修飾詞」(Canberra Qualifier),正如文法中的修飾詞功用一樣,都柏林核心集中的修飾詞,是對項目的內容和語意,做進一步的界定或說明,使其意義更明確,目前包括三種修飾詞:
(一) 語言(language)修飾詞:指出資料項所使用的語言。
例如:Lang =en,指出此資料項是使用英文著錄的。
〔註:此修飾詞不是用來指示原始文件(或資源)所使用的語言。〕
(二) 架構(Scheme)修飾詞:指出項目內容的詮釋方法。
例如:SCHEME = LCSH,指出這個主題是來自LCSH。
(三) 次項目(Subelement)修飾詞:進一步指示資料項內容涵蓋的範圍或出處。[註 16]
例如:Creator.PersonalName = “C.J. Wu”,更明確的界定此資料的屬性是(著者)姓名。
在都柏林核心集的三種修飾詞─語言修飾詞(LANG)、架構修飾詞(SCHEME)、次項目修飾詞(SUBELEMENT)中,語言修飾詞是目前發展最明確的一種,在OCLC的都柏林核心集的(半官方)首頁中,建議遵循RFC 1766的規定,使用 ISO 639的二個字母的語言代碼,如LANG=“EN”。[註 17] 另外一個常用的語言代碼是 NISO Z39.53 的三個字母代碼。[註 18]
相對於語言修飾詞,架構修飾詞和類別修飾詞在都柏林核心集的15個項目中,則隨著各項目功能的差異,以及使用者地域的不同而有很大的變化。由於修飾詞仍在發展中,同時作者在「機讀編目格式在都柏林核心集的應用探討」一書中已有詳盡的介紹,請讀者自行參考。
最後要說明的,在都柏林核心集中,所有的修飾詞亦如15個基本欄位,都是可重複或是省略的。同時由於修飾詞較基本欄位更為複雜多變,目前仍處於發展中的階段,但是這並不會對其使用造成太大的影響,因為都柏林核心集本來就允許個別使用者,因應地區性的特殊需求加入自己的欄位或是修飾詞。雖然會造成某種程度的混亂,但從另外一個角度來看,卻可使都柏林核心集能隨著時勢的變遷來調整。作者認為此種調整,應盡量利用修飾詞為之,使基本的15個欄位保持在較穩定的狀態,成為大家在資料著錄和互通的標準,而以修飾詞的使用來適應地區和時勢的變化。
三、格式轉換的基本原則和方法
作者根據國家圖書館出版的「中國機讀權威記錄格式」(民83)一書,沿用作者在「機讀編目格式在都柏林核心集的應用探討」一書中的格式轉換基本原則和方法,製作了以下的中國機讀權威記錄格式對映(轉換)到都柏林核心集的摘要表格。下面是轉換對照表的製作方法和符號使用的簡要說明:
(一) 中國機讀權威記錄格式的基本對映單位是欄號與其下的分欄,例如009 $a。
(二) 由於中國機讀權威記錄格式在基本的對映單位 -- 分欄中,有時又包含數個不同的項目,因此對照表依據中國機讀權威記錄格式的用法,在表格中有「位址」一欄,其意義和用法遵循中國機讀權威記錄格式的規定。
(三) 中國機讀權威記錄格式的基本欄號下,常常有所謂的「指標」,有些欄號有一個以上的指標,但是大部份的指標並不影響到轉換對照的結果,為了節省篇幅,轉換對照表中將指標的編號和內容結合起來,例如1-3表示指標1的值為3。
(四) 在表格中的都柏林核心集方面,列出了基本欄位和修飾詞,但是省略了語言修飾詞。因為在著錄時,同一資源的語言修飾詞基本上是相同的。
(五) 雖然都柏林核心集允許自訂欄位的存在,但是為了顧及資料流通和交換的需要,轉換對照的原則是使用基本的15個欄位,然後利用修飾詞來容納新的需求。為了盡量容納機讀權威記錄格式的資料,某些都柏林核心集的欄位如簡述(Description),是以較有彈性的方式來使用。
(六) 由於表格甚長,為了解釋和閱讀上的便利,遵循中國機讀權威記錄格式的體例,以欄號的百位數來分節(段)。
(七) 中國機讀權威記錄格式的某些欄號內容是相同的,但是都柏林核心集基本上是不鼓勵重覆,因此有些中國機讀權威記錄格式的欄號將被省略而不做對照。
(八) 為求讀者對照閱讀的便利,以下解釋的例子,將盡量直接使用中國機讀權威記錄格式中相關欄號的例子。
(九) 因為有些情況須直接使用分欄的值於表格中,此時以{}表示,例如{$a}是將分欄a的值直接使用在表格中。
(十) 都柏林核心集中,若是欄位的內容已經能清楚的顯示其意義,則以不使用次項目修飾詞為原則。
(十一) 為了使資料在國際上的流通和交換暢通無阻,雖然是中國機讀權威記錄格式的對照和轉換,作者仍然建議在現階段以英文來顯示都柏林核心集的15個基本欄位名稱,但是修飾物則以中文為主,例如
< meta name= "DC.Description.裝訂" lang = "zh-tw" content = "平裝">。
理由是15個基本欄位的英文名稱應不會對讀者造成太大的負擔,但是修飾物則是千變萬化,因此中文資料仍應使用中文名稱,除非是大家耳熟能詳的名詞。再者,元資料(如都柏林核心集)通常是隱藏在幕後,或者是資料庫內,顯現給讀者時,基本欄位和次項目修飾物會先行分離,此時系統製作者可以自行決定是否要將基本欄位的英文名稱轉換成中文。
(十二) 都柏林核心集是用來描述資料的,因此中國機讀權威記錄格式欄號若是僅與機讀權威記錄格式的(電腦)記錄有關,則予以省略,例如欄號001的系統控制號。
四、第0-1段欄號
表1. 中國機讀權威記錄格式第0-1段欄號的對照表。
|
中國機讀權威記錄格式 |
都柏林核心集 |
||||||
|
欄位 |
位址 |
指標 |
欄位 |
修飾詞 |
|||
|
架構 |
次項目 |
||||||
|
015 $a |
|
|
資源識別代號(Identifier) |
國際標準權威記錄號碼(ISADN) |
|
||
|
050 $a |
|
|
資源識別代號(Identifier) |
國立中央圖書館權威記錄系統識別號 |
|
||
|
099 $a |
|
|
資源識別代號(Identifier) |
國家書目中心資料庫權威記錄系統識別號 |
|
||
|
100 $a |
8 |
|
簡述(Description) |
|
權威標目情況 |
||
|
150 $a |
|
|
簡述(Description) |
|
政府機構類型 |
||
|
152 $a |
|
|
簡述(Description) |
|
編目規則 |
||
|
154 $a |
|
|
簡述(Description) |
|
劃一題名類型 |
||
|
160 $a |
|
|
涵蓋時空(Coverage) |
|
地理名稱 |
||
以下是針對上述表格的詳細說明和例子:
欄號001:可省略,因為這是機讀權威記錄的電腦系統編號,與文件或資源本身無關。
欄號005:可省略,因為這是機讀權威記錄的最後異動時間。
欄號009:可省略,理由同於欄號001。
欄號015 $a:國際標準權威記錄號碼(ISADN),可用來唯一識別個別的文件或資源。
欄號050 $a:國立中央圖書館權威記錄系統識別號,可用來唯一識別個別的文件或資源。
欄號099 $a:國家書目中心資料庫權威記錄系統識別號,可用來唯一識別個別的文件或資源。
欄號100 $a位址0-7:可省略,因為這是機讀權威記錄格式記錄的輸入日期,與文件或資源本身無關。
欄號100 $a位址8:權威標目情況,須先將代碼轉換成文字敘述。
例子:< meta name= "DC.Description.權威標目情況" content = "暫用">。
欄號100 $a位址9-11:編目語言,若是欄號100 $a位址13-20已有註明,則可省略,否則據以設定都柏林核心集的語言修飾詞。
欄號100 $a位址12:可省略,若有註明,在相關的音譯欄位,將都柏林核心集的架構修飾詞加以設定。
欄號100 $a位址13-20:字集和附加字集,若有註明,將都柏林核心集的語言修飾詞加以設定。
欄號100 $a位址21-22:編目文字,若是欄號100 $a位址13-20或者位址9-11已有註明,則可省略,否則據以設定都柏林核心集的語言修飾詞。
欄號150 $a:政府機構類型,置入都柏林核心集的簡述欄位中,代碼須要轉換。
例子:< meta name= "DC.Description.政府機構類型" content = "中央機構">。
欄號152 $a:編目規則,置入都柏林核心集的簡述欄位中,若為代碼則須先轉換成全稱。
欄號152 $b:標題系統,若有註明,在相關的標題欄位,將都柏林核心集的架構修飾詞加以設定。
欄號154 $a:劃一題名類型,置入都柏林核心集的簡述欄位中,代碼須要轉換。
欄號160 $a:地區代碼,若資料與其他相關欄號重覆則省略,否則記載於欄位涵蓋時空中。
五、第2段欄號
表2. 中國機讀權威記錄格式第2段欄號的對照表。
|
中國機讀權威記錄格式 |
都柏林核心集 |
||||
|
欄位 |
位址 |
指標 |
欄位 |
修飾詞 |
|
|
架構 |
次項目 |
||||
|
200 $a+$b |
|
|
主題和關鍵詞(Subject) |
{152$b} |
人名權威標目 |
|
200 $a+$g |
|
|
主題和關鍵詞(Subject) |
{152$b } |
人名權威標目 |
|
200 $c |
|
|
簡述(Description) |
|
人名權威標目附註 |
|
200 $d |
|
|
簡述(Description) |
|
世代數 |
|
200 $f |
|
|
涵蓋時空(Coverage) |
|
生卒年代 |
|
200 $s |
|
|
涵蓋時空(Coverage) |
|
時期名稱 |
|
200 $4 |
|
|
簡述(Description) |
|
著作方式 |
|
200 $x |
|
|
主題和關鍵詞(Subject) |
|
人名權威標目主題 |
|
200 $y |
|
|
涵蓋時空(Coverage) |
|
地理名稱 |
|
200 $z |
|
|
涵蓋時空(Coverage) |
|
時期名稱 |
|
210 $a+$b |
|
|
主題和關鍵詞(Subject) |
{152$b } |
團體名稱權威標目 |
|
210 $c |
|
|
簡述(Description) |
|
團體名稱權威標目附註 |
|
210 $d |
|
|
簡述(Description) |
|
會議屆數 |
|
210 $e |
|
|
涵蓋時空(Coverage) |
|
會議地點 |
|
210 $f |
|
|
涵蓋時空(Coverage) |
|
會議日期 |
|
210 $h |
|
|
簡述(Description) |
|
團體名稱權威標目附註 |
|
210 $s |
|
|
涵蓋時空(Coverage) |
|
時期名稱 |
|
210 $4 |
|
|
簡述(Description) |
|
著作方式 |
|
210 $x |
|
|
主題和關鍵詞(Subject) |
|
人名權威標目主題 |
|
210 $y |
|
|
涵蓋時空(Coverage) |
|
地理名稱 |
|
210 $z |
|
|
涵蓋時空(Coverage) |
|
時期名稱 |
|
215 $a |
|
|
主題和關鍵詞(Subject) |
{152$b } |
地名權威標目 |
|
215 $x |
|
|
主題和關鍵詞(Subject) |
|
地名權威標目主題 |
|
215 $y |
|
|
涵蓋時空(Coverage) |
|
地理名稱 |
|
215 $z |
|
|
涵蓋時空(Coverage) |
|
時期名稱 |