網頁資料著錄的省思:資料著錄的必要性與作者著錄

吳政叡 (Cheng-Juei Wu)

輔仁大學圖書資訊系專任副教授

E-mail: lins1022@mails.fju.edu.tw

中文摘要

1990Web誕生後,網頁成為重要的資訊記載和來源之一,由於網頁數量的龐大,催生了作者著錄的新概念,也打破了資料著錄由圖書館編目人員壟斷的局面。針對此一新趨勢,本文從資料著錄基本目的與功能的角度出發,探討在網頁資料處理上的相關基本課題:電腦時代資料著錄的必要性(或者是需求發生時直接處理原始資料的可行性)、自動化著錄的可能性、和人機系統的先天困境。針對上述問題的分析與歸納結論,是確立了(在可預見的將來內)資料著錄的必要性,接著作者分析目前盛行的兩種處理模式:搜尋引擎與專業資料著錄人員之利弊得失,並由此導出作者著錄興起之必然趨勢。

關鍵字:作者著錄,資料著錄,元資料,Dublin CoreMetadata

一、前言

自古以來人們即不斷尋求更好的材料來儲存知識,以便流傳後世,從泥土、動物骨頭、龜殼、紙張,到今日的電子儲存媒體(如光碟片和磁碟片)。但是無論是使用何種材料來記載知識,隨著儲存材料的不斷累積,當超出直接逐一翻閱儲存媒體的負荷程度後,基於方便、節省時間、和效率的考量,如何快速來找到所需要的資料,成為必須解決的一個課題。本文後面的分析顯示,這個古老的宿命(或課題),雖然今日電腦科技突飛猛進和運算速度驚人,仍是一個重要的問題亟待解決。

在電腦發明以前,人類對於此古老課題的主要解決方案,是透過目錄來提綱契領的整理資料,和對資料加以適當的描述,以協助資料的檢索。因此製作目錄的主要目的之一,是希望透過對資料的著錄和描述,來減少不必要的調閱和取得原件的次數,以提高資料檢索的效率,和快速的找尋到所需要的資料。

有關圖書著錄一詞的解釋,根據黃淵泉在《中文圖書分類編目學》一書中的定義為--「是將書籍的內容和形式特徵,按既定的編目規則記錄起來,以方便讀者來利用或是圖書館員來管理。」 [註 1] 現在另外一個常使用的同義詞是資訊組織。 [註 2]

目前紙張媒體的資料著錄方式,由於書籍可以說是紙張媒體資料的主要代表物之一,因此下面以書籍為例來說明。書籍的資料著錄主要由圖書館(或類似性質機構)的專業人員來負責,這些專業人員大多數畢業於圖書館相關系所,接受過一定程度的正式專業訓練。在資料著錄時使用的主要工具有編目規則手冊、機讀編目格式、權威記錄、分類表、和標題表等。

紙張媒體資料著錄的專業性(或者資料著錄的複雜程度),可以由編目規則手冊和機讀編目格式的複雜性來窺見。以臺灣地區圖書館所普遍使用的《中國編目規則》 [註 3]和《中國機讀編目格式》[註 4]為例,《中國編目規則》有235頁,分甲(著錄)和乙(標目)兩大篇,其下共計26章。而每章中的條款數目多寡雖有不同,但若以甲(著錄)篇中最重要的第一章總則來分析,實際有文字意義的條款140條左右(尚不包括條款中的分款,如1.7.1計有23條分款) [註 5]。由以上簡單的統計數字可以推知,《中國編目規則》的複雜程度,不是非圖書館專業人員在短時間內可以熟悉和運用的。

至於資料著錄的另外一個主要工具--機讀編目格式,起源於圖書館嘗試引進電腦做為處理書目資料的工具,美國國會圖書館首先於1966年創造機讀編目格式(MARC)來處理編目資料 [註6],從此以後電腦逐漸取代卡片目錄成為主要的處理工具。

機讀編目格式的複雜程度,以《中國機讀編目格式》最新的第四版為例,該書有391頁,由《都柏林核心集與圖書著錄》一書中對其的統計分析可知 [註7],中國機讀編目格式分為8段,使用的欄號共計有121個,平均每段有15.125個欄號,而每個欄號下平均有7.62個分欄。由於中國機讀編目格式的最基本資料單位為分欄,因此可以說共計有922個資料單位(未扣除資料重複的分欄)。[註8] ,由多達數百個資料單位可以推知中國機讀編目格式的複雜程度,更非一般人在短時間內可以理解和運用的。

在了解網頁興起前資料著錄主要的處理模式後,在本文的第二節中,首先簡述網頁的興起背景,接著比較網頁與書籍的特色差異。第三節則是主要探討電腦時代資料著錄的一些基本課題,如需求發生時直接處理原始資料的可行性、自動化著錄的可能性、與人機系統的先天困境等議題。本文的第四節比較分析網頁處理模式與作者著錄的需求,最後是結語。

二、網頁與書籍的特色比較

1990 年代在人類資訊傳播與處理上最重要的里程碑是World-Wide Web(全球資訊網,簡稱 WWW)的出現, WWW是起源於CERN中的一個增進高能物理學者間互動的實驗計畫 [註 9],但WWW 藉著網際網路的無遠弗屆,親善的使用介面和易寫作的超文件標示語言(HyperText Markup Language,簡稱 HTML)格式,在短時間內形成一股風潮席捲全球,也無形中改變人們搜尋資料的習慣和期望。

WWW的興起也對資訊傳播的方式產生了重大的衝擊,因為從全球性跨國公司到個人,莫不爭相建立自己的首頁,來善用這二十四小時不停的訊息傳播工具。因此網際網路和WWW的相互結合,大幅降低了資訊傳播的障礙,造成資訊量的激增、網頁數量的快速膨脹、和愈來愈多的資訊儲存在網頁上,使得網頁成為重要的資訊記載和來源之一。

總結來說,在1990 年代興起前,人們找尋資料的主要途徑有二:一是圖書館製作的書目資料(即書籍的著錄資料);一是資料庫廠商發行的各種商業資料庫,如LISA等。1990年以後,網頁已成為第三個人們找尋資料的主要途徑,而且其重要性也正與日俱增中。

以下作者就主要資料記載形式、資料涵蓋面、和數量等角度,來探討書籍與網頁基本特性的異同。

 

書籍

網頁

主要資料記載形式

文字

文字

資料涵蓋面

數量

相對少

相對多

 

雖然網頁可以是多媒體的呈現方式,以影像和聲音來傳達訊息,不過文字仍是最精確和便利的資料記載工具,因此目前網路資源的最大宗仍然是網頁,而一般網頁的主體仍為文字。所以盡管書籍與網頁就外形上看起來是截然不同的,但從兩者資訊記載工具的角度來看,其間的差異並不大。

就資料涵蓋面而言,作者曾有「書籍好比散彈槍與網頁好比手槍」的比喻。[註 10] 因為一本書往往有數百頁,因此書籍的資料涵蓋面通常較大。換言之,書籍有如散彈槍,一打擊出去,往往在資料涵蓋面的靶上,形成一片的彈孔。相反的,一個網頁約略有如書中的一頁,因此網頁的資料涵蓋面通常甚窄。換言之,網頁有如手槍,射擊出去,往往祇在資料涵蓋面的靶上,形成一個彈孔。

由於書籍與網頁在資料涵蓋面上有極大的差異,因此兩者在資料檢索的困難度上也差異甚大。網頁由於資料涵蓋面甚窄,相對來說困難度很高,這也是以網頁為主要處理對象的搜尋引擎有很高「垃圾」比率的主要原因之一。可是對以處理書籍為主的圖書館自動化系統而言,就甚少聽聞有類似於搜尋引擎的高「垃圾」比率現象,因為書籍資料涵蓋面廣,讀者在書中某一章節發現所需資料的機率較大。

三、電腦時代資料著錄的必要性分析

電腦運算快速的程度,是電腦給人印象最深刻的地方,例如現在個人電腦(PC)所使用的中央處理器(CPU)運算速度也已突破1GHz(每秒10億次),即每秒可做10億次動作。[註 11] 由於電腦運算速度是如此的快速,一個很自然的問題便產生--「需求發生時直接處理原始資料的可行性」,即不必先行對原始資料加工(或描述)來產生像目錄(或元資料)的產品,而以直接處理原始資料的方式,便可達到所要求檢索效能程度的可行性。

如同在本文前言中提及的,為了快速的找尋到所需要的資料,在電腦發明以前,人類是透過目錄來提綱契領的整理資料,和對資料加以適當的描述,以協助資料的檢索。如今這個古老的宿命(或課題),是否已經可以藉由電腦科技來徹底打破或解決?

很不幸的,目前的證據顯示,這個古老的宿命仍然如魔咒般揮之不去。雖然已有一些技術是利用電腦運算快速能力來直接處理原始資料的例子,如全文檢索即是一個很好的應用範例,如今也被廣泛應用在某些場合。不過,整體來說,由於諸多限制,在需求發生時直接處理原始資料在效率上是不可行的,廣泛應用在WWW資料檢索上的搜尋引擎(Search Engine)系統便是最好的舉證,因為搜尋引擎的運作方式,並非一般人假設的「需求發生時直接處理原始資料」方式,一般人在使用搜尋引擎時,往往誤以為在打入關鍵字後,電腦是當場以逐字比對的方式來找出那些網頁中含有符合關鍵字的字詞,實際上搜尋引擎的運作方式並非如此。

搜尋引擎的運作方式,正可以證明「在需求發生時直接處理原始資料」方式,往往是非常沒有效率的,尤其針對大量資料的場合,更是不切實際的。搜尋引擎系統主要分兩部份,一個是自動上網收集網頁的系統,一個是將所收集的網頁,利用全文檢索的技術來自動斷字詞 [註12],然後把所取得的字詞建立成類似索引資料庫的系統,做為檢索的基礎。因此當使用者輸入關鍵字後,搜尋引擎是直接查尋其平日已建好的索引資料庫,而非當場直接上網來依序取得網頁,再來比對字詞。也非將所有收集到的網頁全部儲存在系統中,再依序來逐一直接比對所有網頁的全文。

因此從搜尋引擎工作的方式,我們已可清楚了解到一個事實:即便是功能強大和運算快速的電腦,每次都直接針對網頁的內容來搜尋,也是不切實際和無效率的。因此先行對資料做某種程度的加工,即便在數位時代仍然有其必要性。

如果在需求發生時直接處理原始資料的方式行不通,必須要先行對資料做某種程度的加工,那麼完成依賴電腦來加工是否可行?換言之,即自動化著錄的可能性,答案要看我們對加工後產品的品質要求而定。

現在雖然有很多種電腦技術應用在資訊處理上,不過應用的最廣泛也最為人熟知的,莫過於應用於搜尋引擎上來自動斷字詞的全文檢索技術。很不幸的,雖然利用電腦一天二十四小時不間斷的處理,其運作效率是非常驚人的,不過由於加工後產品的品質太低,導至目前在使用 WWW 上的搜尋引擎來收集資料時,大家經常會面臨到的問題之一,是所得到的資料回覆量太多,經常可有上萬條款目,實無法一一來加以過濾,更糟的是,排在前面的款目,又往往不是你所真正需耍的,頗使人進退維谷,祇有瞎猜亂挑。很明顯的,我們需要更高品質的加工產品,而這正是元資料(Metadata)日漸受到重視的原因。

此種電腦技術所面臨的困境是不難預知的,因為此種電腦技術屬於機器智慧的一種應用 [註 13],因此要明瞭此種應用的可能效能上限,我們必須先行了解目前在機器智慧相關各領域的進展,因為它們是這些應用技術的源頭。以作者對目前人工智慧、類神經元網路、模糊邏輯等相關學科的了解,知道創造一個具有現今一般圖書館員智慧的自動化系統,在現階段仍是一個遙不可及的夢想,因為至今我們連模仿一個三歲小孩說和聽故事的智力都有困難,更別說是模仿一個成年的圖書館資料著錄專業人士。

以利用電腦技術來自動搜尋網頁作者的例子,便可清楚展現和證明上述的闡釋。對一般使用者而言,要正確辨識網頁作者似乎是輕而易舉的。然而,相信現在還沒有人敢自誇已發明某種電腦資料處理技術,幾乎可以做得跟人一樣好。而作者祇是眾多資料著錄項目中,相當基本且簡單的一個項目。由此看來,電腦自動化著錄,在可預見的將來仍然是達不到的夢想。

如果電腦自動化著錄目前不可行,那麼結合聰明的資料著錄專業人員和運算快速的電腦,是否即可以有一個既聰明且快速的人機系統?很不幸的,答案往往是否定的。一般而言,人類對比於電腦,人類的特性是有智慧但動作緩慢,而電腦則是動作奇快無比的白痴。當人類和電腦搭配在一起工作時,往往得到的不是相輔相成效果,反而是互相牽制,成為既笨且慢的系統,這是人機系統的先天困境,也是目前尚無任何人機系統可以有效解決網頁資料搜尋困境的原因。

四、作者著錄與網頁處理模式的比較分析

由前節中所做的分析得知,在需求發生時直接處理原始資料是不可行的,必須先對原始資料進行加工,或是加以描述。然而利用電腦來自動化著錄,在目前及可預見的將來內亦行不通,退而求其次,結合資料著錄專家和電腦,又受限於人機系統先天的困境而無法達到目的。總而言之,在機器智慧相關各領域有所重大突破之前,並沒有快速且可以產生高品質著錄資料(或元資料)的方案。

在沒有最佳解決方案之際,次佳的解決方案又是什麼呢?要回答此問題,須先審查現有的做法為何?目前在網頁資料處理上最主要的工具是搜尋引擎,而搜尋引擎的運作方式,正如前面介紹的,是採用全文檢索的技術來自動斷字詞,然後建立類似索引資料庫的做為檢索的基礎,由於整個過程並無人工介入,全部透過電腦來執行,因此可以來處理大量的資料,可惜搜尋引擎產量高但加工後的品質太差。

因為網頁也逐漸成為重要的資料來源之一,所以也有圖書館開始介入網頁的處理與整理。當然透過圖書館專業館員來著錄,其所生產的元資料品質很高,然而眾所周知的,圖書館界為了解決書籍編目人手不足的問題,早就大力推行類似合作編目等方式來解決書籍編目速度過慢的問題。這個現象反映了專業館員生產力低與書籍編目人手不足的問題,同時也宣告了數量與年增加量比書籍更形龐大無比的網頁,即便使用在書籍編目上勉強可行的合作編目方式都是不可行的。因此目前以專業資料著錄人員來整理網頁的方式,祇有應用在小型特定主題網頁資源的整理上,這是由於專業館員品質高但產量少的先天限制緣故。

歸納來說,電腦自動處理是產量高但品質太差無法使用,專業資料著錄人員品質高但產量太少緩不濟急,因此唯一的出路祇有在這二者間尋求折衷點,這便是作者著錄興起的主要因素。

作者著錄方式是以讓網頁作者在製作網頁時,也順手對其所創作網頁加以簡單的著錄(或描述)為主要的訴求,而所產生的(著錄產品)元資料,其產量和品質都介於電腦和專業資料著錄人員中間。

以作者著錄方式的品質而言,雖然一般網頁作者的資料著錄素養低於專業資料著錄人員,但至少遠超過白癡的電腦甚多。一般網頁作者至少可以很正確的提供如篇名(或題名)、作者姓名、發表(出版)時間等基本資料來支援欄位搜尋,而欄位搜尋本身對檢索效率的影響便非常大,作者曾經進行過一個簡單的實驗來證實此觀點。[註 14] 再者,作者著錄在給主題或關鍵詞時雖然無法完全達到控制詞彙的專業水準,但也避免控制詞彙的缺失而更具有新穎性與貼切性。作者著錄方式的最大優勢反映在摘要或對網頁內容的描述上,有誰比網頁作者對其本身的著作更了解呢?不過,一般而言,由於惰性的緣故,網頁作者可能會偷懶略過摘要,甚至一些基本的著錄資料,導致其元資料的品質參差不齊和差異甚大。

以作者著錄方式的產量而言,雖然無法跟電腦的生產力相比,但若是能夠形成共識而徹底實施的話,問題基本上也得到解決了。當然問題解決的程度,有賴於其品質的管制,與專業資料著錄人員須要介入來達到某種資料檢索的要求的程度。

作者著錄正如上面的分析,可以說是目前網頁處理的次佳解決方案與唯一可行方案,然而要實施此種透過網頁作者來著錄的方式,必須要有一些配套的工具與作法,不能直接沿襲和使用目前書籍著錄的工具與作法,這是基於專業訓練、著錄時間、和著錄成本等因素的考量。

就專業訓練而言,眾多行業和各式各樣的網頁作者,其平均的著錄專業訓練和程度,勢必遠低於專業著錄人員,我們也不可能將所有潛在的網頁作者都徵調來受訓,因此對網頁作者專業著錄程度的設定必須盡量調低,在此一前提下,適用於作者著錄方式的工具,必須具有簡單、易懂、易學、和易用的特性。檢視目前應用於書籍著錄的主要工具--編目規則手冊和機讀編目格式就並不適用,如在本文之前言一節中的分析,《中國編目規則》有235頁和26章,而一章中的條款可多達140條。《中國機讀編目格式》第四版更厚達391頁,有多達900個資料單位,根本非一般人在短時間內可以理解和運用的,自然也不適用於做為作者著錄所使用的工具

就著錄時間和著錄成本而言,網頁著錄對一般的網頁作者可說是額外的負擔,因此他們願意投注在網頁著錄上的時間是相當有限的。如果網頁作者預期在著錄上所花費的時間會超過其所願意付出的時間,則不是捨棄著錄,就是草率應付,因此作者著錄的著錄時間應該盡可能的短,其著錄成本也須盡可能的少。在此種著錄時間和著錄成本的限制下,所適用的資料格式要簡單,不能像機讀編目格式那樣的欄位眾多和龐雜;著錄指引也要簡易,不能厚達數百頁。

五、結語

雖然電腦科技的進步和表現另人驚嘆,但是在本文前面的分析中卻明白顯示一個事實,在此場電腦速度與資料累積量的競賽中,速度仍然遠居下風,其結果是我們一如前人般為龐大的資料量所苦,同時也表示在需求發生時直接處理原始資料是不實際也不可行的作法,因此需要來對資料加以描述(或著錄)的古老宿命依然無法避免。

更進一步的分析顯示,不但無法避免要著錄資料的古老宿命,由於機器智慧的限制,自動化著錄在可預見的將來內亦不可行。退而求其次,結合電腦與資料著錄專家的方案,亦因人機系統的先天困境而無法成功。

另一方面,在檢視目前盛行的兩種網頁處理模式:搜尋引擎與專業資料著錄人員後,發現搜尋引擎的電腦自動處理是產量高但品質太差無法使用,而專業資料著錄人員則品質高但產量太少緩不濟急,因此歸納出唯有產量和品質都介於電腦和專業資料著錄人員中間的作者著錄方式是目前唯一的可行之道。

在了解作者著錄方式興起的時代背景後,就不難理解為何近年來都柏林核心集會在眾多元資料格式中脫穎而出,成為最受矚目的元資料格式之一。因為都柏林核心集最初的設計方向,一是緊扣一般網頁為主要的資料處理對象 [註15],一是欄位的設計原則緊扣著作者著錄方式。[註 16]

註釋

1:黃淵泉,中文圖書分類編目學(台北市:學生書局,民 85 年 4 月),頁55。

2:陳昭珍,「電子資訊的組織模式」,圖書館學刊12 期(民 86 年 12 月),頁 163-164。

3:中國圖書館學會分類編目委員會,中國編目規則,(台北市:圖書館學會,民國 84 年)。

4:中國機讀編目格式修訂小組,中國機讀編目格式,(台北市:國家圖書館,民國 86 年)。

5:條款數目的計算方式,是扣除純粹標示性的條款如1.0(通則)和1.2(版本項)後,計算其餘有數字標示的條款數目,如1.1.1.10。

6:L. M. Chan, Cataloging and Classification: An Introduction (New York, NY: McGraw-Hill, 1994), p. 403.

7:參見該書第三章中第三節的分析。吳政叡,都柏林核心集與圖書著錄,(台北市:學生,民 89 12月)。

8:該數字並未扣除資料重複的分欄,由於中國機讀編目格式有不少資料重複的情形,因此該數字有高估的情況。參見註 7

9:T. Berners-Lee, L. Masinter, and M. McCahill, "Uniform Resource Locators (URL)," 1994, <ftp://ds.internic.net/rfc/rfc1738.txt>, p. 1.

10:吳政叡,都柏林核心集與圖書著錄,(台北市:學生,民 89 12月),頁154。

11:這堛獄〞k有些簡略,並未對所謂的「動作」給與較詳盡的定義,不過讀者仍可由此例了解到電腦運算速度是如何的快速

12:利用電腦來將全文斷字取關鍵字做索引的方式,在圖書館界早已行之有年,並非始自搜尋引擎,讀者請參閱何光國《圖書資訊組織原理》一書之第十五章第七節「索引法」的介紹。何光國,圖書資訊組織原理(台北市:三民書局,民 79 年 6 月)。

13:這塈@者並未使用人工智慧一詞,主要是探討使電腦更有智慧的研究領域包含甚廣,除了人工智慧外,其他主要的領域有類神經元網路、模糊邏輯、和基因演算法等

14:吳政叡,WWW資訊檢索的新趨勢-欄位檢索,中國圖書館學會會訊110 期(民 87 9 月),頁 27-28

15:在眾多種類的元資料中,都柏林核心集是較為特殊的,主要它是設計來處理所謂的類文件物件(DLO),簡言之,是可用類似描述傳統印刷文字媒體方式,加以描述的電子檔案。而目前Web上大多數的網頁,是符合類文件物件所定義的範疇,因此非常適合利用都柏林核心集來處理。參見:吳政叡,三個元資料格式的比較分析,中國圖書館學會會報 57 期(民 85 年 12 月),頁39。以及都柏林核心集第一次研討會報告:Stuart Weibel, Jean Godby, Eric Miller, and Ron Daniel, OCLC/NCSA Metadata Workshop Report, 1995, <http://www.oclc.org:5047/oclc/research/publications/ weibel/metadata/dublin_core_report.html>.

16:吳政叡,中國機讀權威記錄格式到都柏林核心集的轉換對照表,圖書與資訊學刊 30 期(民 88 8 月)頁 45-67