【翻译】Yee论RDF以及书目数据

原地址:http://kcoyle.blogspot.com/2009/07/yee-on-rdf-and-bibliographic-data.html

作者:Karen Coyle

译者:Nalsi

————

Martha Yee最近在信息技术与图书馆(2009.6 – pp.50-88)中发表了一篇文章,我考虑了一下怎样回答她在这篇文章里提出的问题。这篇文章的题目本身就是一个问题:“书目数据能够直接放在语义网中么?”(回答是:人们已经这样做了)Martha正在指导一项关于编目的未来的令人赞叹的实验,她制定了自己的编目规则

并且试图把她的想法和语义网社区提出的新概念结合在一起。这篇文章的有价值的地方并不仅仅在于它的结论,其价值也在于它所提出的问题。Martha的构想
仍然没有完成,但这已经激发了人们的思考,引出了进行接下来的讨论和发展。(注:我希望Martha能够把文章发到网上,因为现在这篇文章只有LITA的
成员才能看到)

我目前遇到的问题是,Yee试图为图书馆数据建立RDF模型,但她存在几个基本的误解。而且,她也想要利用FRBR和RDA,但是这两个东西都存在某些内在的一致,让严格的分析变得困难。(Yee给FRBR提出了一个改进的建议,我觉得IFLA应当认真考虑这个建议,就是FRBR中的主题应当是一个关系,而且第三组实体应当在任何情况下都可以使用,不仅仅作为主题。p.
66, #66。然后,IFLA或许应当考虑我就第一组实体提出的相似的建议

我试图分析Yee的问题,这样我们能够进行一次有用而且内容集中的讨论。

讨论的开始,我会试图根据我对于语义网的理解做出几个基本的陈述。我认为我不是RDF的专家,但是我也怀疑我们身边实在没几个真正精通此道的人。如果读到这篇文章的人不同意我的看法,或者能够提出你喜欢的“RDF基础”,敬请自便。

1、RDF不是一种记录格式,甚至不是一种数据格式


们在图书馆工作的人关注书目记录——实际上它是一种复杂的文档,在目录中代表一个复杂的事物,比如说一本书或者一张音乐。RDF和书目记录完全无关。
RDF说的是,数据能够代表事物,而且这些事物之间存在着各种关系。通常造成困惑的一个问题是,任何东西都可以是RDF的事物,所以书、作者、页码、书页
上的单词——如果你愿意,任何或者所有这些东西都可以是你的宇宙中的一部分。

图书馆讨论语义网可能的未来,我发现其中许多的问题是关于记录和应用的:它是否可能把记录根据字顺排列?显示的是什么?但这些问题和RDF并没有直接的关
联。实际上这些问题讨论的是你利用你的数据进行的应用。你可以用具有“RDF特质”的数据建构记录和应用。这些记录和应用与我们今天在使用的记录和应用看
上去可能会不同,它们能够提供一些链接和联系的功能,这些功能是我们今天没法做到的,但是如果你想要你的应用能够实现这个功能,你应当要使用符合RDF模
型的数据。但是,如果如果你要搭建系统,但是你只希望这个系统具有今天图书馆系统的那些功能就够了的话,你就没有必要使用语义网的技术。

2、一个URI(统一资源标识符)是一个标识符,它起到标识的作用

图书馆世界对于使用URI结构的标识符存在许多担心。人们的担心主要表现在“Mark
Twain”会被“http://id.loc.gov/authorities/n79021164”这样的东西取代,展现在读者面前的书目记录就会是下面这个样子:

http://id.loc.gov/authorities/n79021164
Adventures of Tom Sawyer

或许他们不得不等半个小时才能得到结果,因为结果要从远在瓦努阿图的服务器中传送过来。这个看法误解了使用标识符的目的。URL并非是人类可读的显示形式的
替代物。它是一个标识符。它起到标识的作用。尽管我的医疗保险可能把我标识为p37209372,我的大夫还是知道我是Karen。但是,这个标识符能把
我和医疗保险中的许多其他Karen区别开。不管在你的应用中,数据是不是只包含标识符,但是,数据包含一个标识符以及一个首要的显示形式,或者数据包含
一个标识符以及一些不同的显示形式(比如不同语言的显示形式),这都能够称得上是应用,并且满足应用的需求了。要点在于,在数据记录或者数据库中存在标识
符和使用人类可读的形式并不矛盾。

那么,为什么我们要使用标识符呢?标识符能够在错综复杂之中为你提供准确性。对于图书馆的读者来说,责任者n790211164可能是“Mark
Twain”,但对另一些人来说就可能是“Ma-kʻo
Tʻu-wen”,但是如果我们给这两个作者使用了相同的标识符,我们就知道其实他们是一个人。类行星体冥王星(Pluto)和动画人物Pluto的标识
符不同,因为它们是两个不同的东西。它们在某些语言中具有相同的名字是没关系的。标识符并不是为人设计的,但是它很重要,因为机器不能(还不能?)处理自
然语言中的含糊之处。使用标识符,机器就有可能处理像“Herman Melville是Moby
Dick的作者”之类的陈述,而不必理解每一个单词的意思是什么。如果Melville是A123,Moby
Dick是B456,作者关系表示为x->,那么机器就能够回答诸如“A123
x->的所有实体包括?”这样的问题,而这个问题人类会翻译成“Herman
Melville都写过什么书?”

我们通过自身的经验能够知道,建立标识是一件困难的事情。随着我们越来越多的依赖标识符,我们需要意识到,准确的理解某个标识符代表的是什么是非常重要的。
某个图书馆给“Twain,
Mark,”建立了一条规范记录,它表示的可能是一个人,实际上,它表示的是一个“个人责任者”,它可以是一个人,但也可以是一个自然人的作者所使用的许
多笔名中的一个,还可以是许多作者共同使用的一个名字。它的定义和你的比如说IRS或者医疗保险上所使用的人名是不同的。我们也可以很肯定,除非是奇迹,
否则所有人不可能都接受同一个标识符或者标识符系统,所以我们需要转换的系统,能够在不同标识符之间进行翻译。它的工作方式有点类似于xISBN,你输入
一个标识符,继而可以得到系统认为是等价(对于某种标准的“等价”)的一个或者许多个标识符。

3、功能性书目系统之钥在于数据

人们对于图书馆系统已经表达过许多不满。毫无疑问,这些系统存在缺陷。但是,底线是系统处理数据,所以它的关键就是数据。图书馆数据是高度受控的,尽管如此,这些数据设计的原则主要还是显示给人类读者看的,这是一种特定类型的显示方式。

一个严重的问题就是图书馆所谓的“规范控制”。特定的实体(个人、团体、主题)识别为一个特定的人类可读的字符串,创建的记录可以包括这个字符串的不同形
式,以及和这个记录所描述的实体有关的其他字符串。这个信息和书目记录分开存储,后者在资源著录中使用这些字符串。不幸的是,规范记录中的数据并非是为机
器处理而设计的。很难找到简单的例子,所以我举一个经过简化的例子:

US(或者U.S.)是United States的缩写。目录需要告诉读者他们必须使用United
States进行检索,不能用US,或者目录必须允许用这两个词都能检索。规范控制的记录写着:“US,参见United
States”。

当然,United States出现在许多名称中。你或许会认为“United
States”出现的每一处都有这样的参照,比如说United States. Department of State有一个U.S.
Department of
State的参照,告诉使用者说后者不是一个规范的名称……但是实际上没有这个参照。我们假定从U.S.到United
States的参照会不知怎样的应用在所有包含U.S.的条目中。当然,除了不应当应用这个参照的条目,比如说US Tumbler
Co.或者US Telecomm Inc.(但是US Telephone
Association却有)。这里有一个模式,但恐怕这个模式无法通过算法获知,对于我们人类来说也并非一目了然。但是,结论就是,如果你想要机器来处
理你的数据,你必须要按照机器工作的方式来设计你的数据:它们孜孜不倦、感觉迟钝而且愚蠢到让人愤怒的程度:“US”要么和“United
States”相等,要么就不等。

另一个困难产生于理想数据和现实中的数据之间的差别。如果在数据库中只有一半记录有关于作品语言的条目,要是你搜索语言,保证有许多资源的记录永远是搜索
不到的,尽管它们符合你的搜索条件。我们不想要我们的系统笨到只能处理在所有记录里都能期待出现的几个数据元素,但是提供不存在的数据是困难的。使用全文
检索的优点之一在于,我们有可能判断作品优先的语种,即便语种信息没有记录在元数据中,但是如果只处理元数据,这件事你就无能为力了。

如果我们从系统需求的角度研究数据,那么我们可以对图书馆系统作出许多改进。我们不应该用理想化的形式,因为我们永远不可有完美的数据,我们应当研究我们
希望的功能,进而研究我们应当怎样改进数据来支持这样的功能。我们今天的目录数据很好的支持了卡片目录的功能,但我们还没能把它转换到真正机器可读的数
据。也许有一些事情是我们决定不能做的,但是我觉得有一些真正非常划算的可能是我们应当认真考虑的。

接下来……我要进入Martha文章中的问题了。