关于Skyriver的几个note

1SkyriverInnovative Interfaces有某种联系的一家公司(是独立的?),但得到了Innovative Interfaces在资金、技术和管理上的支持。Disruptive Library Technology Jester里特别提到了这一点,虽然我不太理解这件事有什么特别的意义。

2、关于Skyriver的服务是什么,读了Marshall Breeding文章,我的印象是它和OCLC Connexion很像(虽然其实我也不知道后者是怎样的),但是它和biblios.net有明显的差别:后者是一个可以在网页上直接操作的服务(也就是说,基于云的),但是Skyriver要使用客户端这种东西。另一方面,Skyriver也有更多的功能,尤其表现在数据通知的功能上。

3、虽然使用这个服务需要交纳一定的年费,但是Breeding说开销可以比现在图书馆编目的开销减少40%。而且Skyriver的数据是完全开放的(相应的,它也没有使用任何有使用权问题的数据)。

4、目前Skyriver的数据库里有大约2000万条数据,对比于Worldcat1亿4400万。在数据数量上有比较明显的劣势,但是根据Skyriver的主席说,他们想要把工作的重心放到质量上,比如说没有重复数据,只提供完整级数据。我个人倒是还挺怀疑对于这种“质量”的要求的。

5、无论如何,这个项目是对当前OCLC垄断地位的一个冲击。我看到的文章在题目中对于这个意义都或多或少有所强调,比如Breeding的文章的题目是:New Company SkyRiver Sparks Cataloging Competition with OCLCCharles W. Bailey的题目是:Jerry Kline’s SkyRiver to Take on OCLC

————

参考:

DigitalKoansJerry Kline’s SkyRiver to Take on OCLC

Library JournalNew Company SkyRiver Sparks Cataloging Competition with OCLC译文

Disruptive Library Technology JesterSkyRiver – a(nother) Bibliographic Utility

【翻译】OCLC报告:联机目录:读者和图书馆(一)

下载地址:http://www.oclc.org/reports/onlinecatalogs/default.htm
图林中文译站:http://www.libspace.org/archives/online-catalogs-what-users-and-librarians-want.html

执行总结

终端用户对于网络的期望以及他们在网上的工作实践决定了他们是否使用图书馆联机目录。目录的界面是很重要的,但是目录数据的质量是另外一个重要的因素,它影响了读者以及图书馆员和工作人员对于目录是否有用的判断。OCLC成立研究小组,进行一次全面的、基于事实的研究,以理解目录数据的“质量”都是由哪些因素构成的,本研究的目的是:

l
识别并且比较目录的终端用户以及图书馆员对于数据质量的预期。

l
比较不同类型的图书馆员对于编目数据质量的预期。

l
提出增强编目数据质量的建议,这个建议要考虑到终端用户和图书馆员两方面的看法。

读者如果想要明确哪些要求能够改进编目数据,他们会发现这份报告有助于他们获得构思。读者如果想要在下一代的图书馆目录以及ILS中,贡献、吸收、整合、同步或者关联不同来源的数据,也会从本报告中受益匪浅。

经过选择的核心的观点:

l
对于期望的资源,用户获取的体验和发现的体验相比同等重要,甚至更为重要。

l
用户依赖并期望增强的内容,包括概要/摘要以及目次。

l
高级搜索的选项(支持分字段的搜索)以及分面帮助用户精炼搜索、导航、浏览并管理数量大的结果集。

l
终端用户以及图书馆员希望的数据目录质量加强方式存在显著的差别。

l
图书馆员和工作人员与终端用户一样,都是带着目的使用图书馆的目录以及目录中的数据的。终端用户通常想要找到并获取他们所需要的信息,图书馆员和工作人员通常是完成他们的工作。图书馆员和工作人员的工作影响了他们对于数据质量的偏好。

l
图书馆员对于数据质量加强的选择反映了他们对于目录准确性以及目录中结构化数据的重视。

结果反映了两种现实中的信息组织的方式——一种来自图书馆,另一种来自网络。图书馆员对于数据的看法在很大程度上仍然受到他们专业经典原则的影响,而终端用户对于数据质量的预期在很大程度上来自于流行网站上信息组织的方式。我们现在需要做的就是把这两个世界中最好的部分整合起来,扩展图书馆联机目录质量的定义。

本报告的结尾提出建议,我们应当在数据质量计划中平衡终端用户和图书馆员对于联机目录的希望,继而,我们提出了一些对未来研究的建议。

【翻译】OCLC控制号作为载体表现标识符

链接地址:http://bibwild.wordpress.com/2009/04/28/oclc-numbers-as-manifestation-identifiers/

作者:jrochkind
译者:Nalsi

————

如果你要编写软件,把不同数据库的书目信息联合到一起,重要的是,使用不会引发歧义的标识符来表示某个载体表现或者某个版本(无论怎么说,这都不是FRBR的具体实现)。

我知道一本特定的书的一个特定的版本,我想知道这个版本在亚马逊、Google、HathiTrust或者Worldcat上有没有。我怎样才能知道我眼前这条数据和那些数据库中的数据描述的是不是同一样东西呢?

在实践中,ISBN、LCCN以及OCLC的号码都有用到不敢让人相信。

我们过去会认为OCLC控制号表示的是一条特定的Worldcat数据。但这完全不是我在用OCLC控制号的方式。比如说,Google Books会允许你查OCLC控制号,来判断Google Books是不是有一条和它相符的数据。我不需要查看Worldcat的数据,我只需要知道我感兴趣的版本的OCLC控制号,然后我就能在Google Books上查它们有没有了这个版本了。

这当然非常有用。ISBN、LCCN以及OCLC控制号是三种经常出现在图书馆书目数据中的标识符,在这三种标识符里面,OCLC的控制号使用的范围最广。

OCLC控制号的再思

一般来讲,OCLC控制号描述的是一条记录,但是因为图书馆的传统是为每一个版本或者载体表现创建一条新记录,所以我们能够有效地用它来表示一个版本或者载体表现。这就是我在Google Books上查OCLC控制号的目的:把它当作一种表示某个特定版本的有效的、没有歧义的方式。“你是否用OCLC控制号来表示版本了呢?”实际上,我并不在乎Worldcat的数据。但是这种方式实在太~有用了。

既然它这么有用,我们把它用得越多越好。但是我们的目录,就像许多其他目录一样,有很多数据都没有OCLC的控制号,大概是因为这些数据不是Worldcat的数据。

在理论上,非Worldcat的数据是有可能获得一个OCLC控制号的,只要在数据中写:“这条数据和OCLC控制号X记录的是同一个版本,但它不是Worldcat的据!”当然它不是Worldcat的数据,但它仍然是同一部作品的同一个版本的数据,存在一条描述同一部作品的Worldcat数据。在理论上,数据中完全可以这样写。如果这样的话,那么OCLC的控制号当然非常有用,软件就能够轻松识别数据描述的是什么。我们需要改变我们对于OCLC控制号的看法。

也许我们需要在特殊的字段记录下这种OCLC控制号,来保证我们能够分辨出这条数据实际上是Worldcat数据,还仅仅是和Worldcat数据表现的是同一个载体表现。有什么简便的方法在MARC中做到这一点么?

实践中的问题

当然,理论上这件事完全能够做到并不意味着它就是可行的。如果你从一个第三方的数据商手里买了几十万条数据,这些数据不会是Worldcat的数据,也不会有OCLC控制号。当然,这些数据绝大多数都和某些Worldcat数据表现了一样的版本,所以应该有OCLC控制号,但是它们就是没有。靠手工给这些数据一条一条加上这个字段显然是不可能的。

有趣的是,如果一条数据有LCCN或者是ISBN,那么不管是免费的Google Book API或者是WorldCat xID API(对OCLC的用户是免费的)都能够把LCCN或者ISBN“翻译”成OCLC控制号。如果一条数据有LCCN或者ISBN,它至少有了一个全球通用的标识符,我们给它加上一个OCLC的控制号也就没什么特别的好处。我建议我们仍然要给它加上OCLC控制号,但是这种容易的事情总是没有难做的事情意义大。

另外一件有趣的事情是,有人告诉我OCLC提供一种“改造”的服务,你可以给他们许多非Worldcat的数据,他们使用系统内部的算法把这些数据和Worldcat数据进行匹配。

我过去的理解是,这样做你是用实际的Worldcat数据替换你系统中的非Worldcat数据。但这不是我们想要的加工买来数据的方法。我们因为一些原因选择从非OCLC的数据源获得数据。但是首先,这就说明了在理论上完全能够写出探索法(heuristic)的算法来匹配非OCLC的数据和OCLC的数据,而且OCLC已经很好地解决了这个问题。

但是第三件也是更有趣的事情是,Deborah Fritz on NGC4Lib告诉我们,OCLC的改造服务现在能够把你的非Worldcat数据匹配到Worldcat数据,在你的数据上增加035字段然后返还给你。

总结如下:

1、OCLC并没有试图寻求在MARC中区分OCLC数据的OCLC控制号,以及仅仅意味着“这条数据表示相同的事情”的OCLC控制号,我发现这件事情很有趣。他们在你的非OCLC数据上增加035字段然后返还给你。

2、这同样意味着OCLC“Policy for Use and Transfer of WorldCat® Records Frequently Asked Questions: Attribution of WorldCat”中的问答6完全不可信。OCLC建议说,如果一条数据包含带有OCLC控制号的035字段,它就是一条Worldcat的数据。但是不,OCLC自己就在帮助别人在非Worldcat数据里增加035字段的OCLC控制号。别人告诉你的话,并非全都是真的。

对于数据合同的误解

一些编目员和图书馆的管理者看上去压力重重,因为似乎在购买的数据中增加OCLC控制号就破坏了他们的购买协议。我不知道为什么是这样。你不能和其他人分享这些数据,你也不能让其他人免费使用这些数据。这没问题。但是如果你们的购买协议不让你在这些数据里增加对你有用的信息,这个买卖可不怎么样,你下次应当坚持改变条件。但是我严重怀疑事情何以如此,我觉得这是个错觉,而且是很多人都有的错觉,

就像我们能够把买来的数据送到规范数据商那里进行规范处理,没有任何理由我能不能够把OCLC看作是一个数据商,然后把我们的数据送到他们那里进行“Worldcat匹配”的处理——而且这些数据并非共享到Worldcat。是的,我们不能把它们送到Worldcat进行共享。但是没有任何理由我们不能把OCLC当成数据商,在这些数据里增加额外的信息,比如OCLC控制号——尤其OCLC不保留这些数据,都返还给我们。如果你购买数据的合同不让你这样做,我会非常吃惊。如果真的如此,这绝非是好合同。但是这个误解非常广泛,因为我们都没有意识到OCLC控制号作为载体表现标识符的重要性。

同样还有你把你的馆藏信息添加到OCLC数据,但并不真的使用Worldcat数据,或者把你在使用的买来的数据分享到Worldcat。

OCLC的买卖以及图书馆界的利益

现在,有人认为OCLC之所以修正了他们的服务,为不是Worldcat的数据增加035字段是为了更好的支持新的OCLC本地系统的规划,来取代过去的图书馆集成系统。事情几乎一定是这样的,我对此毫无疑问。这种附加值的服务应当正是OCLC所关注的问题,来重建一个可持续发展的事业,而不是试图去独占我们共同的书目遗产。

回到我们现在的话题,实际上OCLC的商业利益就在于让人们把OCLC控制号当作是和Worldcat数据相分离的载体表现的标识符。因为越多的数据做到这一点,某个时刻人们就越容易整合进OCLC Worldcat的网格(Grid)服务,整合进Worldcat的本地服务,图书馆购买FirstSearch Worldcat或者使用其他服务的支出也就越少。这就是为什么他们显然创造出了一种“改造”的服务让你的非Worldcat数据加上OCLC的控制号,这对他们是有好处的。

但是,把OCLC控制号当作一种和实际Worldcat数据相分离的的载体表现标识符在总体上是否符合图书馆界的利益呢?我说,是。因为创造出这种事情并不容易,而且现在他就在这了,而且我们过去曾经无所不用来作到这件事。但是我们是否需要出卖我们的灵魂呢?恩,我不是律师,但是我知道,根据美国法律没有人需要得到OCLC的允许才能使用OCLC的控制号,不管出于何种用途。Bender v. West说,West出版公司并不拥有页码的版权,第三方机构无需获得同意才能引用这些页码。OCLC正在越来越多地给加入到Worldcat的数据分配控制号,这和页码是非常不同的。而且用OCLC控制号进行引用和引用页码也是非常不同的。

而且,我也不那么肯定美国以外的法律是怎样规定的。就算不考虑法律,OCLC也能做很多事情来阻碍图书馆这样使用数据,或者仅仅是威胁个人,让这样做变得比较困难。但是你要先记住,我认为让人们这样做实际上是OCLC的利益所在,这样做让用户使用OCLC的其它服务变得更加容易。

现在,OOCLC的内部或许会产生困惑,不确定怎样做才符合他们的利益了。一方面,你有新的网格服务的支持者,比如说Worldcat作为集成图书馆系统,当然,越多人使用OCLC的控制号(不管他们是不是在用Worldcat的数据),他们使用我们其他的服务也就变得越容易。另一方面,你也听人们说过OCLC是垄断的数据提供者的说法,别做梦了,让人们更不用Worldcat数据,这种事情我们可是一点都不能做,我们必须对所有人施加压力,好让他们只从Worldcat购买数据。

前人想要通吃,不想双赢。垄断数据的商业模式不是一个可持续发展的模式,不管他们怎样试图去维护这个模式。这个模式也并不符合图书馆界的利益。不管OCLC怎样维护这个模式,图书馆的数据库里都会有越来越多不是来自于Worldcat的数据。他们要么为这些图书馆设置障碍,甚至不惜自伤一臂,要么就去拥抱基于新服务的商业模式。

新的商业模式

如果我是OCLC,我定会鼓励并且帮助人们把OCLC控制号当作是与Worldcat数据相分离的载体表现的标识符。数据商向图书馆卖自家的数据,我会免费让他们的数据经过“改造”的服务加上OCLC的控制号,这样一旦用户得到这些数据,这些数据就算是非Worldcat数据也都是带OCLC控制号的。用户会从Worldcat以外的途径购买数据,但是他们拿到数据,他们仍然可以加入OCLC的馆际互借服务,使用OCLC的网格服务,在Worldcat上显示他们的馆藏,或者使用新的Worldcat集成图书馆系统的服务。OCLC从中获益,第三方的数据商以及图书馆也都赢了,因为他们获得了更有用的数据。

这是否让OCLC相对于他们的竞争者更胜一筹?因为他们是我们的系统中最有用的载体表现的标识符的维护者,而且又有一个高度发达的系统来处理这些数据。如果他们开发实际价值(actual value),而不是试图在法律上垄断控制书目数据,他们这样获得的优势我并不会嫉妒。我们都赢了,因为OCLC控制号当作载体表现标识符是非常有用的。

所以放弃任何想要占有数据的尝试吧。关注于服务,关注于你现在处于一个优先提供服务的位置上。这是否就是成功的保证呢?不。其他的竞争者将会迎头赶上,就像他们过去曾经迎头赶上过一样(许多OCLC的成员都在购买第三方数据商的数据,这就意味着许多馆藏信息还没有在Worldcat上注册,这对于我们或者OCLC都不好,这件事就是证明)。OCLC曾经非常有效的提供价值来面对竞争,不管采用了怎样的方式。没有其他的路可行。我们其它的图书馆也都在应对业界剧烈的变化,保证我们可持续发展,与时俱进。欢迎来到21世纪。

但是OCLC能够试着找到一种可持续的商业模式,来满足图书馆的利益。或者OCLC也可以坚持当前的商业模式,尽管它不符合图书馆的长期利益。没有一种商业能够受得了把它的顾客都赶出门,所以OCLC是一个非营利的机构,并且担负满足我们利益的重责。网格服务,还有Worldcat作为集成图书馆系统这些服务不但满足我们的利益,还能够让事业持续发展并且与时俱进。而且,出于巧合,就是这个模型也受到了开放数据的影响,而且不管我们从哪里买到的数据,我们都越来越多地把OCLC的控制号当作是载体表现的标识符,这件事也促成了这个模型。不管用怎样的方式,OCLC都会改变,他们要么把我们拉下水,要么就改弦更张。新的服务告诉我们,至少有一部分的OCLC已经开始在试图改弦更张了。

————

译者的话:作者的看法当然很有趣,我们确实非常非常需要把我们的数据库连在一起,也非常非常需要把我们的数据库和整个网络连在一起。我翻译的这篇文章再一次的接受大家的批评指正~