【翻译】OCLC控制号作为载体表现标识符

链接地址:http://bibwild.wordpress.com/2009/04/28/oclc-numbers-as-manifestation-identifiers/

作者:jrochkind
译者:Nalsi

————

如果你要编写软件,把不同数据库的书目信息联合到一起,重要的是,使用不会引发歧义的标识符来表示某个载体表现或者某个版本(无论怎么说,这都不是FRBR的具体实现)。

我知道一本特定的书的一个特定的版本,我想知道这个版本在亚马逊、Google、HathiTrust或者Worldcat上有没有。我怎样才能知道我眼前这条数据和那些数据库中的数据描述的是不是同一样东西呢?

在实践中,ISBN、LCCN以及OCLC的号码都有用到不敢让人相信。

我们过去会认为OCLC控制号表示的是一条特定的Worldcat数据。但这完全不是我在用OCLC控制号的方式。比如说,Google Books会允许你查OCLC控制号,来判断Google Books是不是有一条和它相符的数据。我不需要查看Worldcat的数据,我只需要知道我感兴趣的版本的OCLC控制号,然后我就能在Google Books上查它们有没有了这个版本了。

这当然非常有用。ISBN、LCCN以及OCLC控制号是三种经常出现在图书馆书目数据中的标识符,在这三种标识符里面,OCLC的控制号使用的范围最广。

OCLC控制号的再思

一般来讲,OCLC控制号描述的是一条记录,但是因为图书馆的传统是为每一个版本或者载体表现创建一条新记录,所以我们能够有效地用它来表示一个版本或者载体表现。这就是我在Google Books上查OCLC控制号的目的:把它当作一种表示某个特定版本的有效的、没有歧义的方式。“你是否用OCLC控制号来表示版本了呢?”实际上,我并不在乎Worldcat的数据。但是这种方式实在太~有用了。

既然它这么有用,我们把它用得越多越好。但是我们的目录,就像许多其他目录一样,有很多数据都没有OCLC的控制号,大概是因为这些数据不是Worldcat的数据。

在理论上,非Worldcat的数据是有可能获得一个OCLC控制号的,只要在数据中写:“这条数据和OCLC控制号X记录的是同一个版本,但它不是Worldcat的据!”当然它不是Worldcat的数据,但它仍然是同一部作品的同一个版本的数据,存在一条描述同一部作品的Worldcat数据。在理论上,数据中完全可以这样写。如果这样的话,那么OCLC的控制号当然非常有用,软件就能够轻松识别数据描述的是什么。我们需要改变我们对于OCLC控制号的看法。

也许我们需要在特殊的字段记录下这种OCLC控制号,来保证我们能够分辨出这条数据实际上是Worldcat数据,还仅仅是和Worldcat数据表现的是同一个载体表现。有什么简便的方法在MARC中做到这一点么?

实践中的问题

当然,理论上这件事完全能够做到并不意味着它就是可行的。如果你从一个第三方的数据商手里买了几十万条数据,这些数据不会是Worldcat的数据,也不会有OCLC控制号。当然,这些数据绝大多数都和某些Worldcat数据表现了一样的版本,所以应该有OCLC控制号,但是它们就是没有。靠手工给这些数据一条一条加上这个字段显然是不可能的。

有趣的是,如果一条数据有LCCN或者是ISBN,那么不管是免费的Google Book API或者是WorldCat xID API(对OCLC的用户是免费的)都能够把LCCN或者ISBN“翻译”成OCLC控制号。如果一条数据有LCCN或者ISBN,它至少有了一个全球通用的标识符,我们给它加上一个OCLC的控制号也就没什么特别的好处。我建议我们仍然要给它加上OCLC控制号,但是这种容易的事情总是没有难做的事情意义大。

另外一件有趣的事情是,有人告诉我OCLC提供一种“改造”的服务,你可以给他们许多非Worldcat的数据,他们使用系统内部的算法把这些数据和Worldcat数据进行匹配。

我过去的理解是,这样做你是用实际的Worldcat数据替换你系统中的非Worldcat数据。但这不是我们想要的加工买来数据的方法。我们因为一些原因选择从非OCLC的数据源获得数据。但是首先,这就说明了在理论上完全能够写出探索法(heuristic)的算法来匹配非OCLC的数据和OCLC的数据,而且OCLC已经很好地解决了这个问题。

但是第三件也是更有趣的事情是,Deborah Fritz on NGC4Lib告诉我们,OCLC的改造服务现在能够把你的非Worldcat数据匹配到Worldcat数据,在你的数据上增加035字段然后返还给你。

总结如下:

1、OCLC并没有试图寻求在MARC中区分OCLC数据的OCLC控制号,以及仅仅意味着“这条数据表示相同的事情”的OCLC控制号,我发现这件事情很有趣。他们在你的非OCLC数据上增加035字段然后返还给你。

2、这同样意味着OCLC“Policy for Use and Transfer of WorldCat® Records Frequently Asked Questions: Attribution of WorldCat”中的问答6完全不可信。OCLC建议说,如果一条数据包含带有OCLC控制号的035字段,它就是一条Worldcat的数据。但是不,OCLC自己就在帮助别人在非Worldcat数据里增加035字段的OCLC控制号。别人告诉你的话,并非全都是真的。

对于数据合同的误解

一些编目员和图书馆的管理者看上去压力重重,因为似乎在购买的数据中增加OCLC控制号就破坏了他们的购买协议。我不知道为什么是这样。你不能和其他人分享这些数据,你也不能让其他人免费使用这些数据。这没问题。但是如果你们的购买协议不让你在这些数据里增加对你有用的信息,这个买卖可不怎么样,你下次应当坚持改变条件。但是我严重怀疑事情何以如此,我觉得这是个错觉,而且是很多人都有的错觉,

就像我们能够把买来的数据送到规范数据商那里进行规范处理,没有任何理由我能不能够把OCLC看作是一个数据商,然后把我们的数据送到他们那里进行“Worldcat匹配”的处理——而且这些数据并非共享到Worldcat。是的,我们不能把它们送到Worldcat进行共享。但是没有任何理由我们不能把OCLC当成数据商,在这些数据里增加额外的信息,比如OCLC控制号——尤其OCLC不保留这些数据,都返还给我们。如果你购买数据的合同不让你这样做,我会非常吃惊。如果真的如此,这绝非是好合同。但是这个误解非常广泛,因为我们都没有意识到OCLC控制号作为载体表现标识符的重要性。

同样还有你把你的馆藏信息添加到OCLC数据,但并不真的使用Worldcat数据,或者把你在使用的买来的数据分享到Worldcat。

OCLC的买卖以及图书馆界的利益

现在,有人认为OCLC之所以修正了他们的服务,为不是Worldcat的数据增加035字段是为了更好的支持新的OCLC本地系统的规划,来取代过去的图书馆集成系统。事情几乎一定是这样的,我对此毫无疑问。这种附加值的服务应当正是OCLC所关注的问题,来重建一个可持续发展的事业,而不是试图去独占我们共同的书目遗产。

回到我们现在的话题,实际上OCLC的商业利益就在于让人们把OCLC控制号当作是和Worldcat数据相分离的载体表现的标识符。因为越多的数据做到这一点,某个时刻人们就越容易整合进OCLC Worldcat的网格(Grid)服务,整合进Worldcat的本地服务,图书馆购买FirstSearch Worldcat或者使用其他服务的支出也就越少。这就是为什么他们显然创造出了一种“改造”的服务让你的非Worldcat数据加上OCLC的控制号,这对他们是有好处的。

但是,把OCLC控制号当作一种和实际Worldcat数据相分离的的载体表现标识符在总体上是否符合图书馆界的利益呢?我说,是。因为创造出这种事情并不容易,而且现在他就在这了,而且我们过去曾经无所不用来作到这件事。但是我们是否需要出卖我们的灵魂呢?恩,我不是律师,但是我知道,根据美国法律没有人需要得到OCLC的允许才能使用OCLC的控制号,不管出于何种用途。Bender v. West说,West出版公司并不拥有页码的版权,第三方机构无需获得同意才能引用这些页码。OCLC正在越来越多地给加入到Worldcat的数据分配控制号,这和页码是非常不同的。而且用OCLC控制号进行引用和引用页码也是非常不同的。

而且,我也不那么肯定美国以外的法律是怎样规定的。就算不考虑法律,OCLC也能做很多事情来阻碍图书馆这样使用数据,或者仅仅是威胁个人,让这样做变得比较困难。但是你要先记住,我认为让人们这样做实际上是OCLC的利益所在,这样做让用户使用OCLC的其它服务变得更加容易。

现在,OOCLC的内部或许会产生困惑,不确定怎样做才符合他们的利益了。一方面,你有新的网格服务的支持者,比如说Worldcat作为集成图书馆系统,当然,越多人使用OCLC的控制号(不管他们是不是在用Worldcat的数据),他们使用我们其他的服务也就变得越容易。另一方面,你也听人们说过OCLC是垄断的数据提供者的说法,别做梦了,让人们更不用Worldcat数据,这种事情我们可是一点都不能做,我们必须对所有人施加压力,好让他们只从Worldcat购买数据。

前人想要通吃,不想双赢。垄断数据的商业模式不是一个可持续发展的模式,不管他们怎样试图去维护这个模式。这个模式也并不符合图书馆界的利益。不管OCLC怎样维护这个模式,图书馆的数据库里都会有越来越多不是来自于Worldcat的数据。他们要么为这些图书馆设置障碍,甚至不惜自伤一臂,要么就去拥抱基于新服务的商业模式。

新的商业模式

如果我是OCLC,我定会鼓励并且帮助人们把OCLC控制号当作是与Worldcat数据相分离的载体表现的标识符。数据商向图书馆卖自家的数据,我会免费让他们的数据经过“改造”的服务加上OCLC的控制号,这样一旦用户得到这些数据,这些数据就算是非Worldcat数据也都是带OCLC控制号的。用户会从Worldcat以外的途径购买数据,但是他们拿到数据,他们仍然可以加入OCLC的馆际互借服务,使用OCLC的网格服务,在Worldcat上显示他们的馆藏,或者使用新的Worldcat集成图书馆系统的服务。OCLC从中获益,第三方的数据商以及图书馆也都赢了,因为他们获得了更有用的数据。

这是否让OCLC相对于他们的竞争者更胜一筹?因为他们是我们的系统中最有用的载体表现的标识符的维护者,而且又有一个高度发达的系统来处理这些数据。如果他们开发实际价值(actual value),而不是试图在法律上垄断控制书目数据,他们这样获得的优势我并不会嫉妒。我们都赢了,因为OCLC控制号当作载体表现标识符是非常有用的。

所以放弃任何想要占有数据的尝试吧。关注于服务,关注于你现在处于一个优先提供服务的位置上。这是否就是成功的保证呢?不。其他的竞争者将会迎头赶上,就像他们过去曾经迎头赶上过一样(许多OCLC的成员都在购买第三方数据商的数据,这就意味着许多馆藏信息还没有在Worldcat上注册,这对于我们或者OCLC都不好,这件事就是证明)。OCLC曾经非常有效的提供价值来面对竞争,不管采用了怎样的方式。没有其他的路可行。我们其它的图书馆也都在应对业界剧烈的变化,保证我们可持续发展,与时俱进。欢迎来到21世纪。

但是OCLC能够试着找到一种可持续的商业模式,来满足图书馆的利益。或者OCLC也可以坚持当前的商业模式,尽管它不符合图书馆的长期利益。没有一种商业能够受得了把它的顾客都赶出门,所以OCLC是一个非营利的机构,并且担负满足我们利益的重责。网格服务,还有Worldcat作为集成图书馆系统这些服务不但满足我们的利益,还能够让事业持续发展并且与时俱进。而且,出于巧合,就是这个模型也受到了开放数据的影响,而且不管我们从哪里买到的数据,我们都越来越多地把OCLC的控制号当作是载体表现的标识符,这件事也促成了这个模型。不管用怎样的方式,OCLC都会改变,他们要么把我们拉下水,要么就改弦更张。新的服务告诉我们,至少有一部分的OCLC已经开始在试图改弦更张了。

————

译者的话:作者的看法当然很有趣,我们确实非常非常需要把我们的数据库连在一起,也非常非常需要把我们的数据库和整个网络连在一起。我翻译的这篇文章再一次的接受大家的批评指正~

【翻译】FRBR中的功能

链接地址:http://celeripedean.wordpress.com/2009/04/04/function-in-the-fuctional-requirements-for-bibliographic-records/

作者:Jennifer Eustis

译者:Nalsi

————

直到最近,FRBR这个题目,尤其是题目里的“功能”这个词都没能吸引我,让我觉得不是信息组织和编目工作的视角上的什么重要变化。我最近浏览了FRBR的
很多讨论,于是我改变了看法。我读到关于FRBR的模型是怎样不同于AACR2背后所隐含的理论模型的讨论。AACR2这个内容标准依赖于强制性的格式,FRBR有别于斯,它构建于功能之上。

 

第一次考虑起FRBR和AACR2背后所隐含的理论之间差别的时候,我把问题简单的看作是格式与功能之间的差别。但是我就FRBR提出了几个简单的问题,重新评估了这种两分法。

 

我的第一个问题关注功能以及功能对FRBR意味着什么。根据用户的不同任务,书目数据也承担几种不同的功能。请记住,根据FRBR,用户涵盖的范围很广,从
图书馆的赞助者到图书馆员。FRBR界定的用户任务包括:找到资源、识别一种特定的资源,选择资源,获取资源。我用的“资源”这个词的含义非常宽泛,资源
并不仅仅意味着一个单件,它还包括作品、内容表达或者载体表现(FRBR的第一组实体)。我们知道这点之后,书目数据就必须能够起到功能,来让读者能够轻
易找到、识别、选择以及/或者获取到资源。换句话说,书目数据必须具备最基本的功能性。这需要书目记录以更自然的语言来表达,以便任何用户都能够理解记录
的背景。而它的背景也处于更加复杂的相连数据(linked
data)之中,好让用户能够了解一条记录和其他相关资源之间的联系。书目数据需要更好的预估读者怎样看待并且使用信息,尤其是在数字的环境中,这把我们
带回到相连数据,以及数据和信息之间富有意义的关系上。

 

我的第二个问题关注的是功能性是否真的能够让它自己和格式区分开。如果用户需要找到一个特定格式的资源,书目数据应该具备最低等级的功能性,好向用户提供该
信息。实际上FRBR的解释是,书目数据所起到的功能是基于许多种文献的。原因之一就是我们都知道,用户想要找到不同格式所呈现的不同类型的资源。


本研究还力争在文献、载体与格式所覆盖的范围方面完整无缺。研究组查阅了各种资料,这些资料确认的数据涉及文字、地图、视听、图形和立体资料;涉及纸质、胶片、磁带与光学载体;还涉及声学、电学、数字与光学记录方式。(第4页)

 

在这种意义上,功能超过格式,因为它提出了信息组织的概念等级。但是这二者并没有分开,格式是基于用户任务的书目记录功能的表达。

 

因此,区分格式和功能是在误导我们。实际上,视角的变化在于单件的编目以及组织语境化以及相联系的数据之间的差别。FRBR引入了working
with data的观念,这种观念适合于数据记录的关系的框架,因为无论是满足任何用户任务,它都起到了核心的作用。

 

如果数据能够和其他数据产生越来越多的关联,这就能够帮助我们丰富继而改善书目数据的功能性。正是在这个意义上,William
Denton和Jodi Schneider谈到了FRBR实体之间的强关系和弱关系。这也把我们导向了Tim
Berners-Lee所讨论的“关联数据”的理念。

【翻译】不-统一题名

来源:http://kcoyle.blogspot.com/2009/03/un-uniform-titles.html

作者:Karen Coyle

译者:Nalsi

————

Open Library不久就会改弦更张,按照作品的来显示所有已经出版的书了。这个举动让人着迷,它有时让人满意,有时让人沮丧。但是它会让我更加相信,如果我们要推行FRBR,我们就要改变当前制造数据的方式。


我们遇到一个问题,OCLCThom
Hickey
博客中报道,统一题名(240字段)既有助于识别作品,又阻碍我们识别作品。RDA把统一题名称之为“作品题名”(第六章),它实际上起到两个(或者三个)截然不同的作用,但是很不幸,RDA并没有把它确定下来。

作品题名的第一个功能是聚合同一部作品的不同内容表达。尤其如果这部作品以不同的题名发行(比如哈姆雷特)或者被翻译到很多种语言(再比如哈姆雷特)。在这种情况下,作品得到一个统一的“作品题名”,这个作品题名能够在数据数据库中创造出作品的视角(work views)。

统一题名起到的第二个功能是给多部作品一个共同的题名。有“论文”或者“全集”这样的题名。这种题名分配给一组作品,不会给到单一作品。它是作品的上级(superset),而且同一个作者不同的选集都能够有同样的作品题名。这种统一题名对于聚合和显示FRBR的作品层毫无帮助,而且它也无助于显示给用户看,因为这个题名太宽泛、太模糊了。它或许能够用来当作一种用于检索的文类,但绝不是组织作品的好方式。尤其是,你决不会想要让读者看到以下作品:

Bacon, Francis, 1561-1626.
Essays
The essayes or counsels, ciuill and morall, of Francis Lo. Verulam,
Viscount St. Alban

Bacon, Francis, 1561-1626.
Essays
The essaies of Sr Francis Bacon knight, the Kings Atturney
Generall. His Religious meditations. Places of perswasion and
disswasion. Seene and allowed

这些是论文的文类,文类的数据元素在系统中往往用作分面。但是它不应当和作品题名相混淆,比如这里。

第三个功能是否存在取决于统一题名的附加,这些附加在数据中应当被放在别的地方。比如这样:

Hamlet.
French
Hamlet. German
Hamlet. Italian

如果题名是书目数据的“标目”,语言和日期都和作品的题名混在一起。正如把统一题名用作文类,当前的计算机系统能够提供这种数据记录中的数据的组织,如果人们需要如此的话,而且能够以各种不同的目的利用它,比如选择和聚合。我们完全不需要把这个数据加到作品题名当中,既然书目记录已经不是位于线性的图书馆目录当中。

 

需要指出,我还没有说明在音乐作品的编目中怎样使用统一题名。在音乐作品的编目中,统一题名得到了让人赏心悦目的使用,用来安排每一首乐曲,但是它们并不是作品题名。我没有任何实体创造音乐作品层的经验,但是我相信这个问题非常有趣,所以我希望有人能够解决并且和我们分享这个问题。

如果我们要遵循FRBR对书目下的定义,我们就需要作品题名。我们今天做的数据有一个大问题,就是数据中许多元素都起到多样的功能,这些功能人能够明白,但是计算机却无法处理。这个错误也出现在基于FRBRRDA中,可见我们还没有开发出适用于机器处理的数据来。这在今天来说,是相当让人沮丧的。

 

【翻译】思考链接

原文地址:http://kcoyle.blogspot.com/2008/09/thinking-about-linking.html

作者:Karen Coyle

译者:Nalsi

————

我前一篇日志谈到了“可提供性”(affordances),我总结出两种元数据的连接,内在元数据连接和交互元数据连接。我感觉这里非常混乱(其中一些混乱就是本人造成的),所以我决定在这里分解一下头脑中的垃圾,在这个领域内开始一次新的对话,看看我们是否能够得出一些结论。

 

根据RDA所包含的FRBR,存在一种“基于关系/实体的模型”(relational/object-oriented
model
)。我对这个东西有一些基本的质疑,因为我觉得基于关系的模型和基于实体的模型是非常不同的。这个关系/实体的概念会让我愣下神——一些东西听上去是有意义的,但是我无法理解它的意义。所以我决定把它看作是在一条书目数据内部的一组关系。

 

FRBR/RDA的模型中存在着实体:作品、内容表达、载体表现、单价(WEMI),还有个人、团体、概念、实物、事件和地点。有趣之处是所有这些实体都不是单独存在的。这是一个互相依赖的实体群,不是单独的数据的集合。这让我们难以想象,因为今天的模型实际上是由单独的书目数据和规范数据(包括名称和主体)组成的。但是书目数据包含来自规范数据的标目,所以书目数据本身是完整的,这个事实扭曲了我们的看法。规范数据,即便是名称规范数据,实际上是受控词汇表。这些词汇表有助于书目描述,这意味着,我们需要找到一种方式,实体本身以及实体之间的连接都能得到表达。

 

而且,我们需要决定数据的定义是什么。一个人要描述一部作品,他必须描述其创造者,那么看上去作品个人(或者团体)都必须是同一条数据的组成部分。否则,这条数据就不能独立存在。所以,数据中包含了个人意味着什么,而这个实体又出现在哪里呢?或者,一个不确定的连接指向这个(假想的)实体是否足以让这条书目数据变得完整?换言之,如果这条书目数据(它是作品的一部分)有一个连接指向一个存在于别处的个人,这条书目数据是否完整?

 

注:我重新读了FRBRFRANAR中论述实体个人的部分。FRBR中只在个人这一部分只提到“人名标目”,而FRANAR的实体个人则有许多其他的元素。这和我们对于个人名称字段和个人规范数据的分别是相同的。

 

书目实体之间还存在其它类型的关系。在我看来,一共有两种关系:独立的和从属的。从属的关系出现在WEMI实体之间,这些实体本身都不是完整的。实际上,我把WEMI看成是存在相互依赖的各个部分的单一实体。(我承认,这是当前图书馆编目的看法,一条扁平的数据包含了同时存在于单一实物之上的所有书目等级的信息)

 

需要指出的是,在图书馆编目数据的意义上我把WEMI看作是单一的实体。这个实体的不同等级对于它自身来说是有意义的。比如说,一部文学批评通常指的是一部作品,或者是内容表达。出版商或者书店的广告提到的是载体表现。图书馆识别并流通单件,古书商人处理的基本上都是单件。

 

独立的关系即不同书目实体之间的关系:

作品作品:两部作品相互映射或相互参照(被引用,引用,一部作品根据另一部作品而来,比如戏仿或续编)

整体部分:一部作品包含在另一部作品之中(文章和杂志,章节和书,卷册和丛编)

单件单件:所有类型的复制

 

在更大的程度上,这些关系都可以表达为属性,isCreatorOf, isExpressionOf,
isCitedBy
。但是存在两种关系的念头在我脑海中挥之不去:如果在元数据的记录中没有这种关系就会出现空白的关系,以及书目项目之间的关系。我惊讶于复杂实体内部及其之间的连接。比如,请想象一条书目数据连接了储存在SKOS格式中的主题词汇。这条SKOS记录中有许多字段都是关于preferred and alternate
headings
(忘了规范的翻译是什么了)、概念、向广义词语和狭义词语的连接,以及所以这些在各种语言中的表现形式的。如果书目记录中的属性具有“该词汇在法语中的定义”又会如何呢?它会连接到哪里?或者它只能够指向作为整体的词汇表?