【翻译】OCLC控制号作为载体表现标识符

链接地址:http://bibwild.wordpress.com/2009/04/28/oclc-numbers-as-manifestation-identifiers/

作者:jrochkind
译者:Nalsi

————

如果你要编写软件,把不同数据库的书目信息联合到一起,重要的是,使用不会引发歧义的标识符来表示某个载体表现或者某个版本(无论怎么说,这都不是FRBR的具体实现)。

我知道一本特定的书的一个特定的版本,我想知道这个版本在亚马逊、Google、HathiTrust或者Worldcat上有没有。我怎样才能知道我眼前这条数据和那些数据库中的数据描述的是不是同一样东西呢?

在实践中,ISBN、LCCN以及OCLC的号码都有用到不敢让人相信。

我们过去会认为OCLC控制号表示的是一条特定的Worldcat数据。但这完全不是我在用OCLC控制号的方式。比如说,Google Books会允许你查OCLC控制号,来判断Google Books是不是有一条和它相符的数据。我不需要查看Worldcat的数据,我只需要知道我感兴趣的版本的OCLC控制号,然后我就能在Google Books上查它们有没有了这个版本了。

这当然非常有用。ISBN、LCCN以及OCLC控制号是三种经常出现在图书馆书目数据中的标识符,在这三种标识符里面,OCLC的控制号使用的范围最广。

OCLC控制号的再思

一般来讲,OCLC控制号描述的是一条记录,但是因为图书馆的传统是为每一个版本或者载体表现创建一条新记录,所以我们能够有效地用它来表示一个版本或者载体表现。这就是我在Google Books上查OCLC控制号的目的:把它当作一种表示某个特定版本的有效的、没有歧义的方式。“你是否用OCLC控制号来表示版本了呢?”实际上,我并不在乎Worldcat的数据。但是这种方式实在太~有用了。

既然它这么有用,我们把它用得越多越好。但是我们的目录,就像许多其他目录一样,有很多数据都没有OCLC的控制号,大概是因为这些数据不是Worldcat的数据。

在理论上,非Worldcat的数据是有可能获得一个OCLC控制号的,只要在数据中写:“这条数据和OCLC控制号X记录的是同一个版本,但它不是Worldcat的据!”当然它不是Worldcat的数据,但它仍然是同一部作品的同一个版本的数据,存在一条描述同一部作品的Worldcat数据。在理论上,数据中完全可以这样写。如果这样的话,那么OCLC的控制号当然非常有用,软件就能够轻松识别数据描述的是什么。我们需要改变我们对于OCLC控制号的看法。

也许我们需要在特殊的字段记录下这种OCLC控制号,来保证我们能够分辨出这条数据实际上是Worldcat数据,还仅仅是和Worldcat数据表现的是同一个载体表现。有什么简便的方法在MARC中做到这一点么?

实践中的问题

当然,理论上这件事完全能够做到并不意味着它就是可行的。如果你从一个第三方的数据商手里买了几十万条数据,这些数据不会是Worldcat的数据,也不会有OCLC控制号。当然,这些数据绝大多数都和某些Worldcat数据表现了一样的版本,所以应该有OCLC控制号,但是它们就是没有。靠手工给这些数据一条一条加上这个字段显然是不可能的。

有趣的是,如果一条数据有LCCN或者是ISBN,那么不管是免费的Google Book API或者是WorldCat xID API(对OCLC的用户是免费的)都能够把LCCN或者ISBN“翻译”成OCLC控制号。如果一条数据有LCCN或者ISBN,它至少有了一个全球通用的标识符,我们给它加上一个OCLC的控制号也就没什么特别的好处。我建议我们仍然要给它加上OCLC控制号,但是这种容易的事情总是没有难做的事情意义大。

另外一件有趣的事情是,有人告诉我OCLC提供一种“改造”的服务,你可以给他们许多非Worldcat的数据,他们使用系统内部的算法把这些数据和Worldcat数据进行匹配。

我过去的理解是,这样做你是用实际的Worldcat数据替换你系统中的非Worldcat数据。但这不是我们想要的加工买来数据的方法。我们因为一些原因选择从非OCLC的数据源获得数据。但是首先,这就说明了在理论上完全能够写出探索法(heuristic)的算法来匹配非OCLC的数据和OCLC的数据,而且OCLC已经很好地解决了这个问题。

但是第三件也是更有趣的事情是,Deborah Fritz on NGC4Lib告诉我们,OCLC的改造服务现在能够把你的非Worldcat数据匹配到Worldcat数据,在你的数据上增加035字段然后返还给你。

总结如下:

1、OCLC并没有试图寻求在MARC中区分OCLC数据的OCLC控制号,以及仅仅意味着“这条数据表示相同的事情”的OCLC控制号,我发现这件事情很有趣。他们在你的非OCLC数据上增加035字段然后返还给你。

2、这同样意味着OCLC“Policy for Use and Transfer of WorldCat® Records Frequently Asked Questions: Attribution of WorldCat”中的问答6完全不可信。OCLC建议说,如果一条数据包含带有OCLC控制号的035字段,它就是一条Worldcat的数据。但是不,OCLC自己就在帮助别人在非Worldcat数据里增加035字段的OCLC控制号。别人告诉你的话,并非全都是真的。

对于数据合同的误解

一些编目员和图书馆的管理者看上去压力重重,因为似乎在购买的数据中增加OCLC控制号就破坏了他们的购买协议。我不知道为什么是这样。你不能和其他人分享这些数据,你也不能让其他人免费使用这些数据。这没问题。但是如果你们的购买协议不让你在这些数据里增加对你有用的信息,这个买卖可不怎么样,你下次应当坚持改变条件。但是我严重怀疑事情何以如此,我觉得这是个错觉,而且是很多人都有的错觉,

就像我们能够把买来的数据送到规范数据商那里进行规范处理,没有任何理由我能不能够把OCLC看作是一个数据商,然后把我们的数据送到他们那里进行“Worldcat匹配”的处理——而且这些数据并非共享到Worldcat。是的,我们不能把它们送到Worldcat进行共享。但是没有任何理由我们不能把OCLC当成数据商,在这些数据里增加额外的信息,比如OCLC控制号——尤其OCLC不保留这些数据,都返还给我们。如果你购买数据的合同不让你这样做,我会非常吃惊。如果真的如此,这绝非是好合同。但是这个误解非常广泛,因为我们都没有意识到OCLC控制号作为载体表现标识符的重要性。

同样还有你把你的馆藏信息添加到OCLC数据,但并不真的使用Worldcat数据,或者把你在使用的买来的数据分享到Worldcat。

OCLC的买卖以及图书馆界的利益

现在,有人认为OCLC之所以修正了他们的服务,为不是Worldcat的数据增加035字段是为了更好的支持新的OCLC本地系统的规划,来取代过去的图书馆集成系统。事情几乎一定是这样的,我对此毫无疑问。这种附加值的服务应当正是OCLC所关注的问题,来重建一个可持续发展的事业,而不是试图去独占我们共同的书目遗产。

回到我们现在的话题,实际上OCLC的商业利益就在于让人们把OCLC控制号当作是和Worldcat数据相分离的载体表现的标识符。因为越多的数据做到这一点,某个时刻人们就越容易整合进OCLC Worldcat的网格(Grid)服务,整合进Worldcat的本地服务,图书馆购买FirstSearch Worldcat或者使用其他服务的支出也就越少。这就是为什么他们显然创造出了一种“改造”的服务让你的非Worldcat数据加上OCLC的控制号,这对他们是有好处的。

但是,把OCLC控制号当作一种和实际Worldcat数据相分离的的载体表现标识符在总体上是否符合图书馆界的利益呢?我说,是。因为创造出这种事情并不容易,而且现在他就在这了,而且我们过去曾经无所不用来作到这件事。但是我们是否需要出卖我们的灵魂呢?恩,我不是律师,但是我知道,根据美国法律没有人需要得到OCLC的允许才能使用OCLC的控制号,不管出于何种用途。Bender v. West说,West出版公司并不拥有页码的版权,第三方机构无需获得同意才能引用这些页码。OCLC正在越来越多地给加入到Worldcat的数据分配控制号,这和页码是非常不同的。而且用OCLC控制号进行引用和引用页码也是非常不同的。

而且,我也不那么肯定美国以外的法律是怎样规定的。就算不考虑法律,OCLC也能做很多事情来阻碍图书馆这样使用数据,或者仅仅是威胁个人,让这样做变得比较困难。但是你要先记住,我认为让人们这样做实际上是OCLC的利益所在,这样做让用户使用OCLC的其它服务变得更加容易。

现在,OOCLC的内部或许会产生困惑,不确定怎样做才符合他们的利益了。一方面,你有新的网格服务的支持者,比如说Worldcat作为集成图书馆系统,当然,越多人使用OCLC的控制号(不管他们是不是在用Worldcat的数据),他们使用我们其他的服务也就变得越容易。另一方面,你也听人们说过OCLC是垄断的数据提供者的说法,别做梦了,让人们更不用Worldcat数据,这种事情我们可是一点都不能做,我们必须对所有人施加压力,好让他们只从Worldcat购买数据。

前人想要通吃,不想双赢。垄断数据的商业模式不是一个可持续发展的模式,不管他们怎样试图去维护这个模式。这个模式也并不符合图书馆界的利益。不管OCLC怎样维护这个模式,图书馆的数据库里都会有越来越多不是来自于Worldcat的数据。他们要么为这些图书馆设置障碍,甚至不惜自伤一臂,要么就去拥抱基于新服务的商业模式。

新的商业模式

如果我是OCLC,我定会鼓励并且帮助人们把OCLC控制号当作是与Worldcat数据相分离的载体表现的标识符。数据商向图书馆卖自家的数据,我会免费让他们的数据经过“改造”的服务加上OCLC的控制号,这样一旦用户得到这些数据,这些数据就算是非Worldcat数据也都是带OCLC控制号的。用户会从Worldcat以外的途径购买数据,但是他们拿到数据,他们仍然可以加入OCLC的馆际互借服务,使用OCLC的网格服务,在Worldcat上显示他们的馆藏,或者使用新的Worldcat集成图书馆系统的服务。OCLC从中获益,第三方的数据商以及图书馆也都赢了,因为他们获得了更有用的数据。

这是否让OCLC相对于他们的竞争者更胜一筹?因为他们是我们的系统中最有用的载体表现的标识符的维护者,而且又有一个高度发达的系统来处理这些数据。如果他们开发实际价值(actual value),而不是试图在法律上垄断控制书目数据,他们这样获得的优势我并不会嫉妒。我们都赢了,因为OCLC控制号当作载体表现标识符是非常有用的。

所以放弃任何想要占有数据的尝试吧。关注于服务,关注于你现在处于一个优先提供服务的位置上。这是否就是成功的保证呢?不。其他的竞争者将会迎头赶上,就像他们过去曾经迎头赶上过一样(许多OCLC的成员都在购买第三方数据商的数据,这就意味着许多馆藏信息还没有在Worldcat上注册,这对于我们或者OCLC都不好,这件事就是证明)。OCLC曾经非常有效的提供价值来面对竞争,不管采用了怎样的方式。没有其他的路可行。我们其它的图书馆也都在应对业界剧烈的变化,保证我们可持续发展,与时俱进。欢迎来到21世纪。

但是OCLC能够试着找到一种可持续的商业模式,来满足图书馆的利益。或者OCLC也可以坚持当前的商业模式,尽管它不符合图书馆的长期利益。没有一种商业能够受得了把它的顾客都赶出门,所以OCLC是一个非营利的机构,并且担负满足我们利益的重责。网格服务,还有Worldcat作为集成图书馆系统这些服务不但满足我们的利益,还能够让事业持续发展并且与时俱进。而且,出于巧合,就是这个模型也受到了开放数据的影响,而且不管我们从哪里买到的数据,我们都越来越多地把OCLC的控制号当作是载体表现的标识符,这件事也促成了这个模型。不管用怎样的方式,OCLC都会改变,他们要么把我们拉下水,要么就改弦更张。新的服务告诉我们,至少有一部分的OCLC已经开始在试图改弦更张了。

————

译者的话:作者的看法当然很有趣,我们确实非常非常需要把我们的数据库连在一起,也非常非常需要把我们的数据库和整个网络连在一起。我翻译的这篇文章再一次的接受大家的批评指正~

【翻译】MARC必须死掉

链接地址:http://www.libraryjournal.com/article/CA250046.html

作者:Roy Tennant

译者:Nalsi

————

MARC产生之时,披头士组合还刚刚成立,当时我们还穿着让人尴尬的衣服,梳着让人尴尬的发型。当时的电脑体积庞大,结构复杂,价格昂贵,我们谁也想不到,有一天我们家里会摆着一台电脑,甚或手上提着一台电脑。尽管时代本身并不一定让技术过时(过去40年里,木质铅笔有多少进步呢?),但是电脑标准的发展却突飞猛进。

MARC在某种程度上就是一种时代错误。它刚开始出现的时候,电脑的内存、存储工具以及计算能力都水平很低而且价格昂贵。但是,这些东西现在已经是无所不在而且非常便宜了。

Marc的时代

你看一条MARC数据就知道我是什么意思了。但是别太费心就好。只有两种人相信自己不用查一大堆资料就能看得懂MARC数据:少数顶尖的编目员或是烂醉之人。在MARC数据中,字段的意义并没有明白的标示出来,相反,它是用数字形式表示的,所以不熟悉这套复杂句法的人理解不了它们。但是这种不知所云的困惑(尽管烦人)却并不是MARC让我们遇到越来越多问题的原因。

MARC 的问题又多又严重,这就是为什么我们之中的一些人越来越确信,MARC已经不再有用。比如说Dick Miller的幻灯片:“XML和MARC:选择还是替代?”David Flanders在文章中也说:“MARC的刻板和内在的不规律开始给编目员和用户带来问题。如果把XML应用在书目描述上,MARC已经落后于当前对于书目描述标准的研究了。”

在这个专栏中,我用MARC指称几件相互关联的事清,其中包括MARC句法,MARC数据元素以及《英美编目条例》。这些事情相互关联的太厉害了,所以梳理的工作(这是必须被抛弃的想法)和从头再来至少是一样困难地。在下个月的专栏文章中,我将会通过研究放弃MARC的策略来仔细研究这个问题。现在,让我们来仔细观察几个具体的问题吧,这几个问题都汇聚了上述我们称之为MARC的标准。

粒度

MARC是一个复杂的标准,但是它却缺乏最基本的控制和平衡,也就不能保证在编目的时候实现合适的粒度(也就是描述单个元素的细微程度)。比如说,一本书的编者应当标目在700字段,用|e表明这个人是编者。但是编目机构通常都不采用|e这个子字段,因而人们只能猜测700字段的这个人到底是怎样的角色。

在许多情况下,人们只能通过参考题名字段才能得知编者的身份。这件事是因为MARC和AACR2在很大程度上专注于把编目卡片的格式转化成为电脑的格式。在题名的字段中,你会觉得只能找到一本书的题名,但是这个字段实际上存在着奇怪的附加物,比如说会有“edited and with an introduction by Peter Green”这样的内容出现在一个子字段之中。Peter Green编辑了这本书不应当掩藏在题名字段的一个子字段的字符串中。还有一个更加惊人的例子是,编目往往混淆了个人名称的名和姓。

可扩展性及语言

把我们的编目从卡片转移到电脑中是一项浩大的工程,而且还远没有完成。一些图书馆正在往这些数据中增加额外的信息,来丰富这些数据,比如说目次表。尽管把目次表放到MARC数据中是可能的(参见Blackwell以骇人听闻的细节描述了他的“目次表扩展服务”的计划),但这并不恰当。从根本上讲,MARC是平的,而目次表却是等级结构的。这在XML语言里却只是个小事情。(想要了解更多的MARC翻译成XML的信息,参见XMLMARC网站)

我甚至无法想像我们能够在MARC数据的哪里放下一本书的封面图像(或者是书封信息、评论),好让这些信息既容易让那些需要的人获得,又容易让那些不需要的人无视。

MARC至少提供了一些手段来处理多字体的资源(比如说一本书有中文的题名以及翻译过来或者转写的题名),但是MARC操作的方式让它很难用软件来处理。比如说,相关题名之间的关系在MARC中就是个问题。关于这些问题的更多信息可以参考Moving from MARC to XML网站。

技术的边缘化

MARC从来都是一个神秘的标准。没有其它任何一种职业使用MARC或者类似于它的东西。如果我们去采购软件来处理这些数据,我们只能局限在图书馆卖主的小市场环境中。对于这些人来说,他们设计的系统必须能够用MARC格式导入/导出数据。

但是更广阔的信息产业都在向XML转移,把它作为建立、交换信息的方式。这种转换并不意味着我们放弃当前的系统,转而使用任何基于XML的搜索工具。但是如果我们重新设计我们的书目记录标准,让这些标准使用XML格式,卖主会发现用何种方式生产我们需要的产品既便宜、又方便。

真正的原因

图书馆存在是为了满足当前以及未来用户社区的需求。为了做好这一点,图书馆需要使用能够提供的最好的技术。随着网络、XML、可移动计算的兴起以及其他技术的发展,图书馆能够更加灵活,能够更加迅捷的作出反应,用更加激动人心的方式为他们的用户提供服务。当然图书馆也可以不这样做。如果图书馆坚持过时的标准,他们会发现,想要像他们所期望的那样为他们的用户提供服务会变得越来越困难。

为了让标准既足够满足当前的需要,也足够灵活来提供新的机会,我们需要从书目记录的要求开始(比如,你可以看一下FRBR),继而发明出新的编目标准,来提供力量以及灵活性。这显然是一个巨大的工作,而且需要国会图书馆以及OCLC这样的机构参与进来。我们在30年前做了一次,现在,我们能够再做一次。MARC是在披头士的时代诞生的,现在已经到了展示出漫长而曲折的道路的时候了。

————

译者的话:看的时候才发现,这篇文章竟然已经7年了,7年之中,我们又有多少进步呢?

【翻译】FRBR中的功能

链接地址:http://celeripedean.wordpress.com/2009/04/04/function-in-the-fuctional-requirements-for-bibliographic-records/

作者:Jennifer Eustis

译者:Nalsi

————

直到最近,FRBR这个题目,尤其是题目里的“功能”这个词都没能吸引我,让我觉得不是信息组织和编目工作的视角上的什么重要变化。我最近浏览了FRBR的
很多讨论,于是我改变了看法。我读到关于FRBR的模型是怎样不同于AACR2背后所隐含的理论模型的讨论。AACR2这个内容标准依赖于强制性的格式,FRBR有别于斯,它构建于功能之上。

 

第一次考虑起FRBR和AACR2背后所隐含的理论之间差别的时候,我把问题简单的看作是格式与功能之间的差别。但是我就FRBR提出了几个简单的问题,重新评估了这种两分法。

 

我的第一个问题关注功能以及功能对FRBR意味着什么。根据用户的不同任务,书目数据也承担几种不同的功能。请记住,根据FRBR,用户涵盖的范围很广,从
图书馆的赞助者到图书馆员。FRBR界定的用户任务包括:找到资源、识别一种特定的资源,选择资源,获取资源。我用的“资源”这个词的含义非常宽泛,资源
并不仅仅意味着一个单件,它还包括作品、内容表达或者载体表现(FRBR的第一组实体)。我们知道这点之后,书目数据就必须能够起到功能,来让读者能够轻
易找到、识别、选择以及/或者获取到资源。换句话说,书目数据必须具备最基本的功能性。这需要书目记录以更自然的语言来表达,以便任何用户都能够理解记录
的背景。而它的背景也处于更加复杂的相连数据(linked
data)之中,好让用户能够了解一条记录和其他相关资源之间的联系。书目数据需要更好的预估读者怎样看待并且使用信息,尤其是在数字的环境中,这把我们
带回到相连数据,以及数据和信息之间富有意义的关系上。

 

我的第二个问题关注的是功能性是否真的能够让它自己和格式区分开。如果用户需要找到一个特定格式的资源,书目数据应该具备最低等级的功能性,好向用户提供该
信息。实际上FRBR的解释是,书目数据所起到的功能是基于许多种文献的。原因之一就是我们都知道,用户想要找到不同格式所呈现的不同类型的资源。


本研究还力争在文献、载体与格式所覆盖的范围方面完整无缺。研究组查阅了各种资料,这些资料确认的数据涉及文字、地图、视听、图形和立体资料;涉及纸质、胶片、磁带与光学载体;还涉及声学、电学、数字与光学记录方式。(第4页)

 

在这种意义上,功能超过格式,因为它提出了信息组织的概念等级。但是这二者并没有分开,格式是基于用户任务的书目记录功能的表达。

 

因此,区分格式和功能是在误导我们。实际上,视角的变化在于单件的编目以及组织语境化以及相联系的数据之间的差别。FRBR引入了working
with data的观念,这种观念适合于数据记录的关系的框架,因为无论是满足任何用户任务,它都起到了核心的作用。

 

如果数据能够和其他数据产生越来越多的关联,这就能够帮助我们丰富继而改善书目数据的功能性。正是在这个意义上,William
Denton和Jodi Schneider谈到了FRBR实体之间的强关系和弱关系。这也把我们导向了Tim
Berners-Lee所讨论的“关联数据”的理念。

【翻译】不-统一题名

来源:http://kcoyle.blogspot.com/2009/03/un-uniform-titles.html

作者:Karen Coyle

译者:Nalsi

————

Open Library不久就会改弦更张,按照作品的来显示所有已经出版的书了。这个举动让人着迷,它有时让人满意,有时让人沮丧。但是它会让我更加相信,如果我们要推行FRBR,我们就要改变当前制造数据的方式。


我们遇到一个问题,OCLCThom
Hickey
博客中报道,统一题名(240字段)既有助于识别作品,又阻碍我们识别作品。RDA把统一题名称之为“作品题名”(第六章),它实际上起到两个(或者三个)截然不同的作用,但是很不幸,RDA并没有把它确定下来。

作品题名的第一个功能是聚合同一部作品的不同内容表达。尤其如果这部作品以不同的题名发行(比如哈姆雷特)或者被翻译到很多种语言(再比如哈姆雷特)。在这种情况下,作品得到一个统一的“作品题名”,这个作品题名能够在数据数据库中创造出作品的视角(work views)。

统一题名起到的第二个功能是给多部作品一个共同的题名。有“论文”或者“全集”这样的题名。这种题名分配给一组作品,不会给到单一作品。它是作品的上级(superset),而且同一个作者不同的选集都能够有同样的作品题名。这种统一题名对于聚合和显示FRBR的作品层毫无帮助,而且它也无助于显示给用户看,因为这个题名太宽泛、太模糊了。它或许能够用来当作一种用于检索的文类,但绝不是组织作品的好方式。尤其是,你决不会想要让读者看到以下作品:

Bacon, Francis, 1561-1626.
Essays
The essayes or counsels, ciuill and morall, of Francis Lo. Verulam,
Viscount St. Alban

Bacon, Francis, 1561-1626.
Essays
The essaies of Sr Francis Bacon knight, the Kings Atturney
Generall. His Religious meditations. Places of perswasion and
disswasion. Seene and allowed

这些是论文的文类,文类的数据元素在系统中往往用作分面。但是它不应当和作品题名相混淆,比如这里。

第三个功能是否存在取决于统一题名的附加,这些附加在数据中应当被放在别的地方。比如这样:

Hamlet.
French
Hamlet. German
Hamlet. Italian

如果题名是书目数据的“标目”,语言和日期都和作品的题名混在一起。正如把统一题名用作文类,当前的计算机系统能够提供这种数据记录中的数据的组织,如果人们需要如此的话,而且能够以各种不同的目的利用它,比如选择和聚合。我们完全不需要把这个数据加到作品题名当中,既然书目记录已经不是位于线性的图书馆目录当中。

 

需要指出,我还没有说明在音乐作品的编目中怎样使用统一题名。在音乐作品的编目中,统一题名得到了让人赏心悦目的使用,用来安排每一首乐曲,但是它们并不是作品题名。我没有任何实体创造音乐作品层的经验,但是我相信这个问题非常有趣,所以我希望有人能够解决并且和我们分享这个问题。

如果我们要遵循FRBR对书目下的定义,我们就需要作品题名。我们今天做的数据有一个大问题,就是数据中许多元素都起到多样的功能,这些功能人能够明白,但是计算机却无法处理。这个错误也出现在基于FRBRRDA中,可见我们还没有开发出适用于机器处理的数据来。这在今天来说,是相当让人沮丧的。