自序

自小由於喜歡閱讀各種書籍,因此對資料的整理和分析也頗感興趣,在就讀輔仁大學圖書館系時,就曾以DBASE II套裝軟體寫了一個小型的資料庫系統來整理自己的書籍和資料。退伍後幸賴父母資助得以出國攻讀電腦學位,雖然在美攻讀電腦博士的研究領域,主要是類神經元網路(Neural Networks)和模糊邏輯(Fuzzy Logic),但卻也在攻讀博士學位的最後半年,因緣際會的接觸到電子圖書館方面的文獻,並開始收集相關的資料。學成返國後回到輔仁大學圖書資訊系任教,除了繼續電子圖書館方面的研究外,也在偶然機會下接觸到元資料並對其著迷,二年多前那時正是搜尋引擎(Search Engine)勢力如日中天之際,雖然國外對元資料的研究已在開始推動,但是國內不論是圖書館界或電腦界,對元資料卻還是相當的陌生,因此連翻譯名詞也找不到,作者在參閱大部分的理工辭典對Meta-language等的翻譯後,也將meta字首翻成「元」,因此將Metadata翻譯成「元資料」。

元資料(Metadata)最常見的英文定義是 "data about data",可直譯為描述資料的資料,主要是描述資料屬性的資訊,用來支持如指示儲存位置、資源尋找、文件紀錄、評價、過濾等的功能。以圖書館的角度來看,就其本義和功能而言,元資料可說是電子式目錄,因為編製目錄的目的,即在描述收藏資料的內容或特色,進而達成協助資料檢索的目的。因此元資料是用來揭示各類型電子文件或檔案的內容和其他特性,其典型的作業環境是電腦網路作業環境。換言之,元資料是因應現代資料處理上的二大挑戰而興起的:一是電子檔案成為資料的主流,另外一個是網路上大量文件的管理和檢索需求。

從另外一個角度來看,元資料的興起跟WWW與搜尋引擎的盛行頗有關連,WWW盛行後,為因應檢索網頁內容的需要而有搜尋引擎的產生,搜尋引擎運作的方式,基本上是屬於全文檢索,主要是透過自動抓取程式在網際網路上抓取網頁,然後以自動拆字(或詞)作索引的方式來建立其資料庫,做為檢索的基礎,這種操作方式的特點是高運作效率和一網打盡,因此有高回收率與低精確率的特性,這個低精確率的缺點,隨著WWW網頁數量的急遽膨脹,成為無法忍受的致命傷。於是大家體會到對資料加以適當描述的重要性,這跟圖書館製作目錄的動機是一致的,這個古老的經驗又得到再一次的肯定。

這本書的主題是都柏林核心集(Dublin Core),它是眾多元資料種類中的一種,是19953月由OCLCNCSA所聯合贊助的研討會,在邀請五十二位來自圖書館、電腦、網路方面的學者和專家,共同研討下的產物,是一個簡單有彈性,且非圖書館專業人員也可輕易了解和使用的資料描述格式。這種簡單有彈性和適合各種專業人員的特性,正是它在國外越來越受到歡迎的主要因素,也是作者特別青睞都柏林核心集的原因,這是因為作者同時具有圖書館學和電腦的背景,了解到在現階段,一種適合各專業人士的簡易元資料的必要性;一方面傳統的機讀編目格式過於繁瑣,也繼承太多的傳統包袱,同時傳統圖書館的著錄方式並不適合非圖書館專業的人。另一方面以作者對目前人工智慧、類神經元網路、模糊邏輯等相關學科的了解,知道創造一個具有現今一般圖書館員智慧的自動化系統,在現階段仍是一個遙不可及的夢想,因為至今我們連模仿一個三歲小孩說和聽故事的智力都有困難,更別說是模仿一個成年的專業人士。所以綜合來說,在現階段資料的描述仍需以人工作業為主,同時以今日網際網路上資料膨脹的速度來看,光靠圖書館員來處理是不夠的,由(眾多專業的)文件或資料的創造者本身來自行加以描述,已是必然的趨勢,這正是類似都柏林核心集這種元資料受重視的原因。

二年多來作者雖然發表一系列的文章來介紹元資料,特別是都柏林核心集,但仍感到過於分散,缺乏完整性和系統性,同時國內外有關元資料和都柏林核心集的專書也甚為稀少,乃將二年多來的研究心得加以整理寫成此書,希望能為國內在元資料和都柏林核心集的研究上,起一些推波助瀾的效果。

本書的章節安排如下:第一章是時代背景介紹,使讀者對現在資訊檢索方面的新趨勢有一些基本認識,以了解元資料興起的背景。第二章是元資料概論,闡述元資料的定義和內涵,介紹現有元資料的種類,最後選擇三個具代表性的元資料,來加以仔細的介紹,使讀者對元資料能有一個較清楚的整體認知。第三章是都柏林核心集的詳細介紹和分析,首先是都柏林核心集至今的整個發展歷程,其次是每個欄位的詳細剖析,這是有興趣使用都柏林核心集的讀者必須詳讀的章節,再來是修飾詞的介紹,修飾詞是都柏林核心集最新的發展方向,雖然整體的內容尚未有定論,但對有心深入都柏林核心集的讀者,也是必須詳讀的章節。第四節是作者針對都柏林核心集的重要特色與制定原則,加以詳細的剖析,最後是都柏林核心集轉換到國際機讀編目格式(UNIMARC)、美國機讀編目格式(USMARC)、中國機讀編目格式(Chinese MARC)的分析。

第四章是介紹都柏林核心集具代表性的國外研究計畫,分別是北歐元資料計畫和分散式系統技術中心(DSTC),這兩個計畫各具特色,非常值得參考,讀者會因此對都柏林核心集的功用刮目相看。第五章是介紹作者所發展的一套整合式都柏林核心集系統--元資料實驗系統,相當實用和具有特色,同時也開放給有興趣的使用者著錄和檢索,是一個很好的實驗系統,來支援都柏林核心集和元資料的相關研究與實驗,歡迎大家使用與不吝指教。

作者撰寫本書時雖然力求完善,然而一己的能力畢竟有限,寫作期間又常須分身照顧四歲的小女虹熠(Grace),疏漏在所難免,尚祈各界先進和同業不吝指正。最後本書的完成,要感謝盧荷生老師平日不斷的督促與鼓勵,並且慨允為本書作序,同時家人和同儕的協助,也是本書完成不可或缺的助力,在此表達最深的謝意。

 

                                                                                        吳政叡 謹識

民國85年2月

                                                                                                於輔仁大學圖書資訊系