北歐元資料計畫與都柏林核心集

 

吳政叡 (Cheng-Juei Wu)

輔仁大學圖書資訊系專任副教授

E-mail: lins1022@fujens.fju.edu.tw

中文摘要

北歐元資料計畫是一個規模很大的區域性跨國合作計畫,參加國家有北歐的五國 挪威、瑞典、芬蘭、丹麥、冰島,可以說是國外眾多都柏林核心集計畫中規模最大的,除了規模最大的特色外,對於機讀編目格式(MARC)和都柏林核心集間的相互轉換與合作著墨頗多,可見此研究計畫的重點之一,是研究如何將都柏林核心集融入和應用在圖書館上,其主要的合作組織有丹麥圖書館聯合中心。

關鍵字:元資料,北歐元資料計畫,都柏林核心集,MetadataNordic Metadata ProjectDublin Core

一、前言

都柏林核心集(Dublin Core)為備受矚目的元資料之一,是 1995 年 3 月由國際圖書館電腦中心(Online Computer Library Center,簡稱OCLC)和 National Center for Supercomputing Applications(NCSA)所聯合贊助的研討會,經過五十二位來自圖書館、電腦、網路方面的學者和專家共同研討下的產物。目的是希望建立一套描述網路上電子文件特色的方法,來協助資訊檢索。研討會的中心問題是--如何用一個簡單的元資料記錄來描述種類繁多的電子物件?[註 1] 主要的目標是發展一個簡單有彈性,且非圖書館專業人員也可輕易了解和使用的資料描述格式,來描述網路上的電子文件。

都柏林核心集最近一次的研討會為第五次研討會,於1997年10月6-8日在芬蘭的赫爾辛基舉行,由於在本文撰寫期間,第五次研討會的正式報告尚未出版,因此先根據澳洲國家圖書館的一位與會者--Bemal Rajapatirana的報告,先行介紹第五次研討會的情況與成果 [註2],待第五次研討會的正式報告出爐後,作者會另撰專文來加以介紹。

根據Bemal Rajapatirana的報告,與會者達成了如下的幾項共識:

(一) 加快標準化的腳步由於都柏林核心集的15個基本項目架構,自第四次研討會以來已普遍獲得認同,同時都柏林核心集也得到世界各國很多研究者的肯定,並且嘗試建造系統,此時若無一定的標準來遵循,將使系統的建造者無所適從和系統的更改頻繁。因此基於都柏林核心集已趨成熟的共識,決定推派代表撰寫RFC的草案,呈交給 IETF進行標準化的過程。

(二) 區分簡單和複雜兩種都柏林核心集格式簡言之,所謂簡單(simple)和複雜(complex)格式的區分,一般而言主要是以有無使用任何修飾詞作為標準來劃分的。由於都柏林核心集的15個基本項目已有共識,因此簡單都柏林核心集的標準化過程將會較早開始。

(三) 語法上採用HTML和RDF格式為主HTML的格式目前是使用4.0版本,寫法請參見作者的另一篇文章 [註 3]。

(四) 成立工作小組針對一些尚未有定論的議題,組成工作小組進行研討,主要有

(1) 內容或格式尚未有定論的基本項目,如Date、Relation、Rights Management等項目。

(2) 修飾詞。

(3) 特殊性議題,如都柏林核心集和Z39.50間的互換。

(五) 次項目(或類別修飾詞)的制定原則

(1) 與基本項目一致,都是可省略的選擇項。

(2) 次項目須能進一步協助詮釋項目的內容。

(3) 祇展開一層,免得結構過於複雜。

(4) 數目盡可能精簡,有可能需要類別修飾詞的基本項目,將限於Title、Creator、Contributor、Publisher、Date、Relation、Coverage等。

目前為止在都柏林核心集的應用和實作系統上,最著名和成功的研究計畫之一,為「北歐元資料計畫」(Nordic Metadata Project)[註 4],這由都柏林核心集的第五次研討會在北歐的芬蘭舉行可以窺知。北歐元資料計畫是一個由北歐五國─挪威、瑞典、芬蘭、丹麥、冰島等學者共同合作的計畫,主要負責的研究者有Ole Husby(挪威)、Juha Hakala(芬蘭)、Traugott Koch(瑞典)、Anders Geertsen(丹麥)、Sigbergur Fridriksson(冰島)、Preben Hansen(瑞典)等,計畫期間是1996年10月到1998年3月,其合作組織是丹麥圖書館聯合中心。以下就針對其發展歷程、著錄格式範本、實驗性資料庫等加以介紹。

二、發展歷程

此計畫的發展歷程分為五個階段 評估現有元資料格式、提昇都柏林核心集、制訂都柏林核心集和北歐各國機讀編目格式(MARC)間的轉換對照表、製作實作機制(語法和使用者環境等)、利用都柏林核心集來改進北歐網路資源的檢索,以下根據其計畫的首頁摘述如下:[註 5]

(一) 評估現有元資料格式 根據研究者對現有元資料的評估後,選擇都柏林核心集做為北歐元資料計畫所使用的資源描述格式。

(二) 提昇都柏林核心集 針對計畫所欲處理的資料,提出一套修飾詞來彌補現有都柏林核心集的不足,此套修飾詞已被加入到 Jon knights 提出的修飾詞草案中,請參照網址 http://www.roads.lut.ac.uk/Metadata/DC-Qualifiers.html。

(三) 制訂都柏林核心集和MARC間的轉換格式 目前已完成 Beta版本的轉換程式,可將都柏林核心集紀錄轉換成 USMARC和北歐各國的機讀編目格式(MARC),實際完成的轉換對照表,有都柏林核心集到芬蘭機讀編目格式(FINMARC)[註 6] 和都柏林核心集到丹麥機讀編目格式(DANMARC)[註 7] 兩種。至於機讀編目格式到都柏林核心集的轉換可行性,將以NORMARC(挪威機讀編目格式)來做試驗。

(四) 創造實作環境 本計畫所使用的著錄格式範本已於1997年1月由Traugott Koch和Mattias Borell制訂產生,同年4月又因應都柏林核心集的第四次研討會的結論而做了修改,此著錄格式範本可於 http://www.ub.lu.se/metadata/DC_creator.html 取得(參見下面圖1),範本的說明文件在http://www.sics.se/~preben/DC/DC_temp_help.html [註 8],另外有完整的使用者指引在http://www.sics.se/~preben /DC/DC_guide.html。[註 9]

(五) 建立元資料的資料庫利用元資料來提昇現存搜索引擎的功能,來改善網路資源的檢索精確率。截自1997年9月已建立二個元資料的實驗性資料庫 -- SWEMETA(3萬筆記錄)和DANMETA(5萬筆記錄),其他北歐國家的元資料實驗性資料庫也在陸續建立中。

三、著錄格式範本

著錄格式範本主要是協助使用者利用都柏林核心集所提供的欄位,來描述便子文件或資源,而1997年10月公布的資料著錄欄位有:[註10]

(一) 主題和關鍵詞(Subject):作品所屬的學術領域,控制語彙用 scheme 註明出處如 LCSH,亦可包含分類號如杜威十進分類號(Dewey Decimal Number)。

例子:Subject = 都柏林核心集。

(二) 題名(Title):作品名稱。

例子:Title = 都柏林核心集與元資料實驗系統。

(三) 著者(Creator):作品的創作者或組織。

例子:Creator = 吳政叡。

(四) 簡述(Description):文件的摘要或影像資源的內容敘述。

(五) 出版者(Publisher):負責發行作品的組織。

(六) 其他參與者(Contributors):除了著者外,對作品創作有貢獻的其他相關人士或組織。

〔註: 如書中插圖的製作者。〕

(七) 出版日期(Date):作品公開發表的日期,建議使用如下格式 YYYY-MM-DD和參考下列網址:http://www.w3.org/TR/NOTE-datetime。在此網頁中共規範有六種格式,都是根據國際標準日期暨時間格式 ISO(國際標準組織)8601制定而成,是ISO 8601的子集合(subset),現在列舉和解說如下以供參考:[註 11]

例子:1997-09-07(西元1997年9月7日)。

(八) 資源類型(Type):作品的類型或所屬的抽象範疇,例如網頁、小說、詩、技術報告、字典等,建議參考下列網址:http://sunsite.berkeley.edu/Metadata/types.html。

例子:Type = Text.Dictionary。

例子:Type = 文字.技術報告。

(九) 資料格式(Format):告知檢索者在使用此作品時,所須的電腦軟體和硬體設備,例如 text/html(MIME格式)、ASCII、Postscript(一種印表機通用格式)、可執行程式、JPEG(一種通用圖像格式)。亦可擴展至非電子文件,例如book(書本)、叢書、期刊。

例子:Format = text/html。

(十) 資源識別代號(Identifier):字串或號碼可用來唯一標示此作品,例如URN、URL、ISSN、ISBN等。

(十一) 關連(Relation):與其他作品(不同內容範疇)的關連,或所屬的系列和檔案庫。

例子:Relation = http://mes.lins.fju.edu.tw/。

(十二) 來源(Source):作品從何處衍生而來(同內容範疇),例如莎士比亞的某個電子書出自那個紙本。

(十三) 語言(Language):作品所使用的語言,建議遵循 RFC 1766 的規定,請參考下列網址:http://ds.internic.net/rfc/rfc1766.txt,RFC 1766 是使用 ISO 639的二個字母的語言代碼。[註 12]

例子:Language = en。[註13]

(十四) 涵蓋時空(Coverage):作品所涵蓋的時期和地理區域。

(十五) 版權規範(Rights):作品版權聲明和使用規範。

如前所述,北歐元資料計畫所使用的都柏林核心集著錄格式範本(圖1),是由Traugott Koch 和Mattias Borell制訂,網址在http://www.ub.lu.se/metadata/DC_creator.html。[註 14]

圖1. 北歐元資料計畫所使用著錄格式範本的部分畫面

使用者可利用這著錄範本來描述網頁,完成後系統會回傳一個都柏林核心集的格式畫面,使用者再將這些都柏林核心集的元資料,利用複製貼上的功能加入被描述網頁(HTML文件)的<HEAD></HEAD>中,成為文件的一部份。如此一來這些元資料在瀏覽器顯示網頁時,並不會呈現在螢幕上干擾閱讀,但可被具有辨識都柏林核心集能力的搜尋引擎加以收集,並利用這些元資料來提供更好和精確的檢索服務。

至於北歐元資料計畫使用的都柏林核心集格式,目前是使用第四次研討會的規範,遵循HTML 2.0規格,其寫法如下:

<META NAME=DC.subject CONTENT= (SCHEME=LCSH)(LANG=EN) Computer Cataloging of Network Resources>

例如圖1的範本,其HTML文件的<HEAD></HEAD>中,即含有下列的都柏林核心集元資料:[註 15]

<META NAME="DC.date.current" CONTENT="(SCHEME=ANSI.X3.30-1985) 19970410">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#date" tppabs="http://purl.org/metadata/dublin_core_elements#date">

<META NAME="DC.title" CONTENT="Dublin Core Metadata Template (Nordic Metadata Project)">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#title" tppabs="http://purl.org/metadata/dublin_core_elements#title">

<META NAME="DC.creator.name" CONTENT="Traugott Koch">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#creator" tppabs="http://purl.org/metadata/dublin_core_elements#creator">

<META NAME="DC.creator.email" CONTENT="Traugott.Koch@ub2.lu.se">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#creator" tppabs="http://purl.org/metadata/dublin_core_elements#creator">

<META NAME="DC.creator.affiliation" CONTENT="Lund University Library, Development Dept. NetLab">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#creator" tppabs="http://purl.org/metadata/dublin_core_elements#creator">

<META NAME="DC.creator.postal" CONTENT="P.O. Box 3, S- 221 00 LUND, Sweden">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#creator" tppabs="http://purl.org/metadata/dublin_core_elements#creator">

<META NAME="DC.creator.homepage" CONTENT="http://www.ub2.lu.se/koch.html">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#creator" tppabs="http://purl.org/metadata/dublin_core_elements#creator">

<META NAME="DC.subject.keyword" CONTENT="Metadata creation, Dublin Core, Nordic Metadata Project, User support">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#subject" tppabs="http://purl.org/metadata/dublin_core_elements#subject">

<META NAME="DC.description" CONTENT="This service is provided by the Nordic Metadata Project in order to asure good support for the creation of Dublin Core metadata to the Nordic &quot;Net-publisher&quot; community. If you use the metadata created by this form and follow our examples, term lists and recommendations, your HTML documents will carry high quality metadata. To demonstrate the usefulness of providing metadata, the &quot;Nordic Web Index&quot; will properly index your page when published and soon offer improved searching possibilities and precision to all users on the Internet. The result: your pages will be found more easily and correct.">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#description" tppabs="http://purl.org/metadata/dublin_core_elements#description">

<META NAME="DC.publisher" CONTENT="Nordic Metadata Project">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#publisher" tppabs="http://purl.org/metadata/dublin_core_elements#publisher">

<META NAME="DC.contributor" CONTENT="Mattias Borell">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#contributors" tppabs="http://purl.org/metadata/dublin_core_elements#contributors">

<META NAME="DC.date.creation" CONTENT="(SCHEME=ANSI.X3.30-1985) 19970109">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#date" tppabs="http://purl.org/metadata/dublin_core_elements#date">

<META NAME="DC.type" CONTENT="Service">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#type" tppabs="http://purl.org/metadata/dublin_core_elements#type">

<META NAME="DC.format" CONTENT="(SCHEME=imt) text/html">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#format" tppabs="http://purl.org/metadata/dublin_core_elements#format">

<LINK REL=SCHEMA.imt HREF="rfc2046.html" tppabs="http://sunsite.auc.dk/RFC/rfc/rfc2046.html">

<META NAME="DC.identifier.url" CONTENT="http://www.ub2.lu.se/metadata/DC_creator.html">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#identifier" tppabs="http://purl.org/metadata/dublin_core_elements#identifier">

<META NAME="DC.language" CONTENT="(SCHEME=NISOZ39.53) ENG">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#language" tppabs="http://purl.org/metadata/dublin_core_elements#language">

<META NAME="DC.coverage.spatial" CONTENT="Scandinavia">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#coverage" tppabs="http://purl.org/metadata/dublin_core_elements#coverage">

<META NAME="DC.rights" CONTENT="Copyright">

<LINK REL=SCHEMA.dc HREF="dublin_core_elements#rights" tppabs="http://purl.org/metadata/dublin_core_elements#rights">

此範本的一個特色是將系統使用的修飾詞(Qualifier)內建於網頁上的下拉式選單中,使用時相當方便,主要的六個選單是 subject scheme、classification scheme、contributors、date scheme、resource type,它們所包含的選項分別敘述如下:

(一) 標題表(Subject scheme)-- General Finnish Subject Headings(YSA)、Finnish Geographical SH(FIGE)、Finnish Music Thesaurus(FIMU)、Finnish Legal SH(FILE)、Finnish Thes. of the Social Sciences(FISO)、Religion Indexes SH(FIRE)、Finnish Forestry SH(FIFO)、Finnish Agricultural SH(FIAG)、Index Terms for Education and Psych.(FIEP)、SAB ?nesordslista (SABAO)、Norw. Thes. for Arts and Humanities(HUMORD)、 Norw. Thes. for Techn. Sciences(NTUB)、DBC SH、LANDSLYK、Icelandic Systematic Thes.(KERFEFN)、Library of Congress Subject Headings(LCSH)、Medical Subject Headings(MeSH)、RCHME/English Heritage Thesaurus(RCHME)、Ei Thesaurus(EiT)、ACM Computing Classification System(CCS)、AGROVOC、Macrothesaurus OECD、SCIMP/SCANP Thesaurus(SCIMP)、Art & Architecture Thesaurus (AAT)、EUDISED、LC Thes. for Graphic Materials I: Subject Terms(TGM1)、 Union List of Artist's Names(ULAN)、 Thesaurus of Geographic Names(TGN)。

(二) 分類法(classification scheme)-- Finnish Public Libr. Class.(YKL)、SAB Class. 、MOS Class.、Danish Decimal Class.、Library of Congress Class.、Universal Decimal Classification、Dewey Decimal Classification、National Library of Medicine Class.、Colon Classification、Journal of Economic Literature Classification(JEL)、Engineering Information Class. (Ei)、Mathematics Subject Classification(MSC)、ACM Computing Classification System(CCS)、Physics and Astronomy Cassification Scheme(PACS)、Iconclass、Social History & Industrial Classification(SHIC2)。

(三) 其他參與者(Contributors)-- Editor、Illustrator、Binder、Translator、MachineReadableCreator、Sponsor、Compiler、Funder、Composer、Cataloger、Contact、Reviewer、Proofreader。

(四) 日期格式(date scheme)--

(1) ANSI.X3.30-1985:19970923(西元1997年9月23日)。

(2) RFC 822:Mon, 23 Sep 1997(西元1997年9月23日)。

(3) ISO 31:1997-09-23(西元1997年9月23日)。

(五) 資源類型(resource type)-- Article、Book、Booklet、InBook、Collection、InCollection、TechReport、ResearchPaper、Manual、Preprint、Proceedings、InProceedings、Unpublished、Poem、MastersThesis、PhDThesis、HonoursThesis、Journal、Magazine、Advertisment、Service、Image、Music、Dataset、OrganisationInfo、PersonalInfo、Video、MessageOnModeratedMailingList、MessageOnUnmoderatedMailingList、PostingToModeratedNewsgroup、PostingToUnmoderatedNewsgroup、Misc。

(六) 語言(language)-- Finnish、Swedish、Norwegian、Danish、Icelandic、Chinese、English、Japanese等百餘種。

由以上的標題表和分類法所列出的選項來看,除了有北歐諸國通用的區域性標題表和分類法外,也包含常見的國際標題表和分類法,如美國國會標題表(LCSH)和杜威十進分類法,同時也有屬於專門領域,如電腦所使用的ACM Computing Classification System(CCS),可知此計畫所欲涵蓋的資料種類和領域是非常廣泛的,也顯示都柏林核心集是被視為一個通用型的資料描述格式,可被廣泛的使用於一般的圖書館和網際網路(從語言類型包含百餘種語言文字可以推知)。

四、實驗性資料庫

北歐元資料計畫有提供一個實驗性的搜尋引擎,其檢索介面如圖 2中所示(網址在http://nwi.ub2.lu.se/?lang=en),作者使用檢索介面查詢 metadata,查詢結果顯示如圖 3所示。由圖 2的檢索介面設計和圖 3的結果顯示畫面可知,此實驗性搜尋引擎的工作方式和一般的搜尋引擎似無太大的差異,並無法完成發揮元資料的功能,這是有待改進的地方。

圖2. 北歐元資料計畫實驗性資料庫的檢索介面

圖3. 使用北歐元資料計畫檢索介面查詢 metadata的結果顯示畫面

結語

以都柏林核心集在國外的發展現況來看,1997年10月的第五次研討會已有專門的議程,來針對都柏林核心集的實作系統進行展示和討論,這是以前四次研討會所沒有的,顯示都柏林核心集已漸趨成熟和受到肯定。除了已開發系統的介紹外,也有一些正在籌建中的都柏林核心集相關系統的宣佈,以下是它們的簡介:[註16]

(一) 丹麥政府決定自西元1997年起將所有政府的出版物上網,系統的主要規格之一,是採用都柏林核心集來描述文件和協助查詢。

(二) 荷蘭國家圖書館將發展一種新的全球資訊網服務,系統的主要做法是要在所有已蒐集的網頁中,加入都柏林核心集的資料,新的網頁將要求提供者先自行加入都柏林核心集的資料後再送呈,將來荷蘭國家圖書館的搜尋引擎會利用這些元資料來協助檢索。

(三) 英國的UKOLN正在推行一個名為BIBLINK的計劃,在出版社和國家書目中心間建立一條網路通訊管道,來直接交換書籍紀錄和資訊,這套系統是使用都柏林核心集作為其基本的格式。

由以上對都柏林核心集現況的簡介中,可知都柏林核心集是已經被普遍接納的一種元資料,因此國外很多的研究計畫也將都柏林核心集納入,本文介紹了其中的一個代表性研究計畫─北歐元資料計畫(Nordic Metadata Project)。北歐元資料計畫是一個規模很大的區域性跨國合作計畫,參加國家有北歐的五國 挪威、瑞典、芬蘭、丹麥、冰島,可以說是國外眾多都柏林核心集計畫中規模最大的。除了規模最大的特色外,這個計畫有以下的幾個特色:

(一) 它是採用都柏林核心集做為主要的資源描述格式。

(二) 它是規模最大的區域性跨國合作計畫。

(三) 對於機讀編目格式(MARC)和都柏林核心集間的相互轉換與合作著墨頗多,可見此研究計畫的重點之一,是研究如何將都柏林核心集融入和應用在圖書館上。

(四) 涵蓋的資料種類和領域非常廣泛,這由其著錄格式範本中所提供的眾多選項可知,除了有北歐諸國通用的區域性標題表和分類法外,也包含常見的國際標題表和分類法,如美國國會標題表(LCSH)和杜威十進分類法,同時也有屬於專門領域,如電腦所使用的ACM Computing Classification System(CCS),可知此計畫所欲涵蓋的資料種類和領域是非常廣泛的。

(五) 系統著錄畫面設計的非常好,修飾詞是放在網頁的下拉式選單中,使用起來非常方便。

(六) 詳盡的說明和使用文件。

註釋

註 1:吳政叡,「三個元資料格式的比較分析」,中國圖書館學會會報 57 期(民 85 年 12 月),頁39。

註 2:B. Rajapatirana, The 5th Dublin Core Metadata Workshop: a report and observations, 2 Dec. 1997, <http://www.nla.gov.au/nla/staffpaper/helsinki.html>.

註 3:吳政叡,「元資料實驗系統和都柏林核心集的發展趨勢」,國立中央圖書館臺灣分館館刊 4 卷 2 期(民 86 年 12 月),頁18。

註 4:The Nordic Metadata Project, Oct. 1997, <http://linnea.helsinki.fi/meta/index.htm>.

註 5:同註4,頁2-3。

註 6:J. Hakala, Dublin Core/FINMARC/GILS Crosswalk, 25 Sept. 1997, <http://linnea.helsinki.fi/meta/dcficross.html>.

註 7:S. Thorborg, Dublin Core -> DANMARC crosswalk, 28 Aug. 1997, <http://linnea.helsinki.fi/meta/dcdancr.html>.

註 8:P. Hansen, Nordic Metadata Creation Tool General Help, 7 July 1997, <http://www.sics.se/~preben/DC/DC_temp_help.html >.

註 9:P. Hansen, User Guidelines for DC Metadata creation, 7 July 1997, < http://www.sics.se/~preben/DC/DC_guide.html>.

註10:S. Weibel and E. Miller, Dublin Core Metadata Element Set: Reference Description, 2 Oct. 1997, <http://purl.oclc.org/metadata/dublin_core_elements>.

註11:M. Wolf and C. Wicksteed, Date and Time Formats, 15 Sept. 1997, < http://www.w3.org/TR/NOTE-datetime>.

註12:H. T. Alvestrand, Tags for the Identification of language, March 1995, < http://ds.internic.net/rfc/rfc1766.txt>, p. 2.

註13: Guide to Creating Core Descriptive Metadata, 13 April 1996, < http://www.ckm.ucsf.edu/people/jak/meta/mguide3.html>, p. 7.

註14:T. Koch and M. Borell, Dublin Core Metadata Template, 20 Aug. 1997, < http://www.ub.lu.se/metadata/DC_creator.html>.

註 15:同註14。

註 16:同註2,頁3-4。