【翻译】FRBR和FRBR化

原文地址:http://managemetadata.org/blog/2009/07/18/frbr-vs-frbr-ization/
作者:Diane Hillmann

译者:Nalsi

————

在芝加哥举行的ALA年会一团乱——我做了三个主题发言(如果时间允许,我希望能谈论一下它们并且提供地址)。但是我参加了“MARC的未来”的特别小组,然后在星期五的第一个主题发言上说漏了嘴,这件事情就一直在我脑子里挥之不去。LC的Rebecca Guenther谈到了他们让MARC与时俱进的努力,OCLC的Ted Fons从“Big O”(感谢Karen Schneider发明了这个绝妙的名号!)的角度谈到了相似的话题。这两个发言的共同之处就是,他们想要用“FRBR化”的视角重组MARC数据,他们觉得这么做是让FRBR实现其价值的全部方式。我争辩到情况并非如此,而且我越思考这件事我就越相信:FRBR化和使用RDA中的FRBR模型不是一回事。

 

我的观点部分来自于,RDA和MARC的语义是截然不同的(不是句法,人们通常都会谈到句法)。RDA包含丰富的关系词汇表,能够在书目著录中使用,这是人们最为忽视的一件事。把RDA看作是文本的指南或者是一系列规则的绝大部分人都忽视了这一点,因为关系词汇表出现在附录中,但我们中的绝大多数人都不会把附录看作是随便哪本书中最重要的部分。但是想想吧:在RDA词汇表中,每一个关系都有一个标识符,每一个关系都是一个等级体系的一部分,这让我们能够在不同等级上表达书目的关系,而且能够让我们使用这些关系在书目之间进行导航,而不必深入数据,去解释我们在MARC数据中出于相同目的所使用的文字附注到底是什么意思。比如说,我们要说“资源X”是“资源Y”的一个缩略本(以及,“资源Y”有一个缩略版本“资源X”),使用RDA我们就能让系统清楚的把这句话表达给读者。任何人需要应用或者解释关系,关系都是独特的、经过标识的以及清楚界定的。

 

相反,FRBR化只能通过MARC到FRBR(或者RDA)的映射揭示出我们能够揭示的东西,最多也就是FRBR第一组实体之间的关系。相对于RDA表示的
关系,实际中的关系要多得多。你可以说这些关系并不是FRBR中必须的,但是如果我们把它们看作是作品、内容表达、载体表现、单件的“垂直关系”中的“水平关系”,我们就有可能用FRBR来思考我们的世界,我们其实是用得上这些关系的。

 

想到RDA的“测试”机构,这是让我头疼的一个问题。难道RDA非要塞到MARC里我们才会用它么?我们就不能学着把MARC看作是一种失真的输出格式,开
始使用其他的方式来表达关系,好让我们维护更广阔的数据世界中的一些更加重要的功能和可信度么?Jennifer Bowen和eXtensible Catalog的家伙们把MARC转换到RDA的时候发现(详细情况,请看我对于Jennifer的论文写的帖子),这么做较之于其他的方式,涉及到一些截然不同的问题。[顺便说,XC项目无所不在。加油,Jennifer!]

 

越来越多的零售商开始转向RDA模板,开始构建基于RDA的应用,而不是试图把MARC转换成一些会被误认作RDA的东西。我们要不得不接受,就像任何其他的元数据映射一样,天下没有免费的午餐,而且来了之后也就再也回不去了。

 

Registry已经注册了其中一些关系(看“RDA Roles”中FRBR第一组实体和第二组实体之间的关系,以及“RDA Relationships for Works, Expressions, Manifestations, Items”中RDA第一组实体之间的关系),但是我们要知道它们并不是最终的版本。我还没有得到最后修改的信息来进行这些更新,得到这些信息之后我会立刻宣布的。

【翻译】Yee论RDF以及书目数据

原地址:http://kcoyle.blogspot.com/2009/07/yee-on-rdf-and-bibliographic-data.html

作者:Karen Coyle

译者:Nalsi

————

Martha Yee最近在信息技术与图书馆(2009.6 – pp.50-88)中发表了一篇文章,我考虑了一下怎样回答她在这篇文章里提出的问题。这篇文章的题目本身就是一个问题:“书目数据能够直接放在语义网中么?”(回答是:人们已经这样做了)Martha正在指导一项关于编目的未来的令人赞叹的实验,她制定了自己的编目规则

并且试图把她的想法和语义网社区提出的新概念结合在一起。这篇文章的有价值的地方并不仅仅在于它的结论,其价值也在于它所提出的问题。Martha的构想
仍然没有完成,但这已经激发了人们的思考,引出了进行接下来的讨论和发展。(注:我希望Martha能够把文章发到网上,因为现在这篇文章只有LITA的
成员才能看到)

我目前遇到的问题是,Yee试图为图书馆数据建立RDF模型,但她存在几个基本的误解。而且,她也想要利用FRBR和RDA,但是这两个东西都存在某些内在的一致,让严格的分析变得困难。(Yee给FRBR提出了一个改进的建议,我觉得IFLA应当认真考虑这个建议,就是FRBR中的主题应当是一个关系,而且第三组实体应当在任何情况下都可以使用,不仅仅作为主题。p.
66, #66。然后,IFLA或许应当考虑我就第一组实体提出的相似的建议

我试图分析Yee的问题,这样我们能够进行一次有用而且内容集中的讨论。

讨论的开始,我会试图根据我对于语义网的理解做出几个基本的陈述。我认为我不是RDF的专家,但是我也怀疑我们身边实在没几个真正精通此道的人。如果读到这篇文章的人不同意我的看法,或者能够提出你喜欢的“RDF基础”,敬请自便。

1、RDF不是一种记录格式,甚至不是一种数据格式


们在图书馆工作的人关注书目记录——实际上它是一种复杂的文档,在目录中代表一个复杂的事物,比如说一本书或者一张音乐。RDF和书目记录完全无关。
RDF说的是,数据能够代表事物,而且这些事物之间存在着各种关系。通常造成困惑的一个问题是,任何东西都可以是RDF的事物,所以书、作者、页码、书页
上的单词——如果你愿意,任何或者所有这些东西都可以是你的宇宙中的一部分。

图书馆讨论语义网可能的未来,我发现其中许多的问题是关于记录和应用的:它是否可能把记录根据字顺排列?显示的是什么?但这些问题和RDF并没有直接的关
联。实际上这些问题讨论的是你利用你的数据进行的应用。你可以用具有“RDF特质”的数据建构记录和应用。这些记录和应用与我们今天在使用的记录和应用看
上去可能会不同,它们能够提供一些链接和联系的功能,这些功能是我们今天没法做到的,但是如果你想要你的应用能够实现这个功能,你应当要使用符合RDF模
型的数据。但是,如果如果你要搭建系统,但是你只希望这个系统具有今天图书馆系统的那些功能就够了的话,你就没有必要使用语义网的技术。

2、一个URI(统一资源标识符)是一个标识符,它起到标识的作用

图书馆世界对于使用URI结构的标识符存在许多担心。人们的担心主要表现在“Mark
Twain”会被“http://id.loc.gov/authorities/n79021164”这样的东西取代,展现在读者面前的书目记录就会是下面这个样子:

http://id.loc.gov/authorities/n79021164
Adventures of Tom Sawyer

或许他们不得不等半个小时才能得到结果,因为结果要从远在瓦努阿图的服务器中传送过来。这个看法误解了使用标识符的目的。URL并非是人类可读的显示形式的
替代物。它是一个标识符。它起到标识的作用。尽管我的医疗保险可能把我标识为p37209372,我的大夫还是知道我是Karen。但是,这个标识符能把
我和医疗保险中的许多其他Karen区别开。不管在你的应用中,数据是不是只包含标识符,但是,数据包含一个标识符以及一个首要的显示形式,或者数据包含
一个标识符以及一些不同的显示形式(比如不同语言的显示形式),这都能够称得上是应用,并且满足应用的需求了。要点在于,在数据记录或者数据库中存在标识
符和使用人类可读的形式并不矛盾。

那么,为什么我们要使用标识符呢?标识符能够在错综复杂之中为你提供准确性。对于图书馆的读者来说,责任者n790211164可能是“Mark
Twain”,但对另一些人来说就可能是“Ma-kʻo
Tʻu-wen”,但是如果我们给这两个作者使用了相同的标识符,我们就知道其实他们是一个人。类行星体冥王星(Pluto)和动画人物Pluto的标识
符不同,因为它们是两个不同的东西。它们在某些语言中具有相同的名字是没关系的。标识符并不是为人设计的,但是它很重要,因为机器不能(还不能?)处理自
然语言中的含糊之处。使用标识符,机器就有可能处理像“Herman Melville是Moby
Dick的作者”之类的陈述,而不必理解每一个单词的意思是什么。如果Melville是A123,Moby
Dick是B456,作者关系表示为x->,那么机器就能够回答诸如“A123
x->的所有实体包括?”这样的问题,而这个问题人类会翻译成“Herman
Melville都写过什么书?”

我们通过自身的经验能够知道,建立标识是一件困难的事情。随着我们越来越多的依赖标识符,我们需要意识到,准确的理解某个标识符代表的是什么是非常重要的。
某个图书馆给“Twain,
Mark,”建立了一条规范记录,它表示的可能是一个人,实际上,它表示的是一个“个人责任者”,它可以是一个人,但也可以是一个自然人的作者所使用的许
多笔名中的一个,还可以是许多作者共同使用的一个名字。它的定义和你的比如说IRS或者医疗保险上所使用的人名是不同的。我们也可以很肯定,除非是奇迹,
否则所有人不可能都接受同一个标识符或者标识符系统,所以我们需要转换的系统,能够在不同标识符之间进行翻译。它的工作方式有点类似于xISBN,你输入
一个标识符,继而可以得到系统认为是等价(对于某种标准的“等价”)的一个或者许多个标识符。

3、功能性书目系统之钥在于数据

人们对于图书馆系统已经表达过许多不满。毫无疑问,这些系统存在缺陷。但是,底线是系统处理数据,所以它的关键就是数据。图书馆数据是高度受控的,尽管如此,这些数据设计的原则主要还是显示给人类读者看的,这是一种特定类型的显示方式。

一个严重的问题就是图书馆所谓的“规范控制”。特定的实体(个人、团体、主题)识别为一个特定的人类可读的字符串,创建的记录可以包括这个字符串的不同形
式,以及和这个记录所描述的实体有关的其他字符串。这个信息和书目记录分开存储,后者在资源著录中使用这些字符串。不幸的是,规范记录中的数据并非是为机
器处理而设计的。很难找到简单的例子,所以我举一个经过简化的例子:

US(或者U.S.)是United States的缩写。目录需要告诉读者他们必须使用United
States进行检索,不能用US,或者目录必须允许用这两个词都能检索。规范控制的记录写着:“US,参见United
States”。

当然,United States出现在许多名称中。你或许会认为“United
States”出现的每一处都有这样的参照,比如说United States. Department of State有一个U.S.
Department of
State的参照,告诉使用者说后者不是一个规范的名称……但是实际上没有这个参照。我们假定从U.S.到United
States的参照会不知怎样的应用在所有包含U.S.的条目中。当然,除了不应当应用这个参照的条目,比如说US Tumbler
Co.或者US Telecomm Inc.(但是US Telephone
Association却有)。这里有一个模式,但恐怕这个模式无法通过算法获知,对于我们人类来说也并非一目了然。但是,结论就是,如果你想要机器来处
理你的数据,你必须要按照机器工作的方式来设计你的数据:它们孜孜不倦、感觉迟钝而且愚蠢到让人愤怒的程度:“US”要么和“United
States”相等,要么就不等。

另一个困难产生于理想数据和现实中的数据之间的差别。如果在数据库中只有一半记录有关于作品语言的条目,要是你搜索语言,保证有许多资源的记录永远是搜索
不到的,尽管它们符合你的搜索条件。我们不想要我们的系统笨到只能处理在所有记录里都能期待出现的几个数据元素,但是提供不存在的数据是困难的。使用全文
检索的优点之一在于,我们有可能判断作品优先的语种,即便语种信息没有记录在元数据中,但是如果只处理元数据,这件事你就无能为力了。

如果我们从系统需求的角度研究数据,那么我们可以对图书馆系统作出许多改进。我们不应该用理想化的形式,因为我们永远不可有完美的数据,我们应当研究我们
希望的功能,进而研究我们应当怎样改进数据来支持这样的功能。我们今天的目录数据很好的支持了卡片目录的功能,但我们还没能把它转换到真正机器可读的数
据。也许有一些事情是我们决定不能做的,但是我觉得有一些真正非常划算的可能是我们应当认真考虑的。

接下来……我要进入Martha文章中的问题了。

【翻译】OCLC报告:联机目录:读者和图书馆(一)

下载地址:http://www.oclc.org/reports/onlinecatalogs/default.htm
图林中文译站:http://www.libspace.org/archives/online-catalogs-what-users-and-librarians-want.html

执行总结

终端用户对于网络的期望以及他们在网上的工作实践决定了他们是否使用图书馆联机目录。目录的界面是很重要的,但是目录数据的质量是另外一个重要的因素,它影响了读者以及图书馆员和工作人员对于目录是否有用的判断。OCLC成立研究小组,进行一次全面的、基于事实的研究,以理解目录数据的“质量”都是由哪些因素构成的,本研究的目的是:

l
识别并且比较目录的终端用户以及图书馆员对于数据质量的预期。

l
比较不同类型的图书馆员对于编目数据质量的预期。

l
提出增强编目数据质量的建议,这个建议要考虑到终端用户和图书馆员两方面的看法。

读者如果想要明确哪些要求能够改进编目数据,他们会发现这份报告有助于他们获得构思。读者如果想要在下一代的图书馆目录以及ILS中,贡献、吸收、整合、同步或者关联不同来源的数据,也会从本报告中受益匪浅。

经过选择的核心的观点:

l
对于期望的资源,用户获取的体验和发现的体验相比同等重要,甚至更为重要。

l
用户依赖并期望增强的内容,包括概要/摘要以及目次。

l
高级搜索的选项(支持分字段的搜索)以及分面帮助用户精炼搜索、导航、浏览并管理数量大的结果集。

l
终端用户以及图书馆员希望的数据目录质量加强方式存在显著的差别。

l
图书馆员和工作人员与终端用户一样,都是带着目的使用图书馆的目录以及目录中的数据的。终端用户通常想要找到并获取他们所需要的信息,图书馆员和工作人员通常是完成他们的工作。图书馆员和工作人员的工作影响了他们对于数据质量的偏好。

l
图书馆员对于数据质量加强的选择反映了他们对于目录准确性以及目录中结构化数据的重视。

结果反映了两种现实中的信息组织的方式——一种来自图书馆,另一种来自网络。图书馆员对于数据的看法在很大程度上仍然受到他们专业经典原则的影响,而终端用户对于数据质量的预期在很大程度上来自于流行网站上信息组织的方式。我们现在需要做的就是把这两个世界中最好的部分整合起来,扩展图书馆联机目录质量的定义。

本报告的结尾提出建议,我们应当在数据质量计划中平衡终端用户和图书馆员对于联机目录的希望,继而,我们提出了一些对未来研究的建议。