【翻译】Yee论RDF以及书目数据

原地址:http://kcoyle.blogspot.com/2009/07/yee-on-rdf-and-bibliographic-data.html

作者:Karen Coyle

译者:Nalsi

————

Martha Yee最近在信息技术与图书馆(2009.6 – pp.50-88)中发表了一篇文章,我考虑了一下怎样回答她在这篇文章里提出的问题。这篇文章的题目本身就是一个问题:“书目数据能够直接放在语义网中么?”(回答是:人们已经这样做了)Martha正在指导一项关于编目的未来的令人赞叹的实验,她制定了自己的编目规则

并且试图把她的想法和语义网社区提出的新概念结合在一起。这篇文章的有价值的地方并不仅仅在于它的结论,其价值也在于它所提出的问题。Martha的构想
仍然没有完成,但这已经激发了人们的思考,引出了进行接下来的讨论和发展。(注:我希望Martha能够把文章发到网上,因为现在这篇文章只有LITA的
成员才能看到)

我目前遇到的问题是,Yee试图为图书馆数据建立RDF模型,但她存在几个基本的误解。而且,她也想要利用FRBR和RDA,但是这两个东西都存在某些内在的一致,让严格的分析变得困难。(Yee给FRBR提出了一个改进的建议,我觉得IFLA应当认真考虑这个建议,就是FRBR中的主题应当是一个关系,而且第三组实体应当在任何情况下都可以使用,不仅仅作为主题。p.
66, #66。然后,IFLA或许应当考虑我就第一组实体提出的相似的建议

我试图分析Yee的问题,这样我们能够进行一次有用而且内容集中的讨论。

讨论的开始,我会试图根据我对于语义网的理解做出几个基本的陈述。我认为我不是RDF的专家,但是我也怀疑我们身边实在没几个真正精通此道的人。如果读到这篇文章的人不同意我的看法,或者能够提出你喜欢的“RDF基础”,敬请自便。

1、RDF不是一种记录格式,甚至不是一种数据格式


们在图书馆工作的人关注书目记录——实际上它是一种复杂的文档,在目录中代表一个复杂的事物,比如说一本书或者一张音乐。RDF和书目记录完全无关。
RDF说的是,数据能够代表事物,而且这些事物之间存在着各种关系。通常造成困惑的一个问题是,任何东西都可以是RDF的事物,所以书、作者、页码、书页
上的单词——如果你愿意,任何或者所有这些东西都可以是你的宇宙中的一部分。

图书馆讨论语义网可能的未来,我发现其中许多的问题是关于记录和应用的:它是否可能把记录根据字顺排列?显示的是什么?但这些问题和RDF并没有直接的关
联。实际上这些问题讨论的是你利用你的数据进行的应用。你可以用具有“RDF特质”的数据建构记录和应用。这些记录和应用与我们今天在使用的记录和应用看
上去可能会不同,它们能够提供一些链接和联系的功能,这些功能是我们今天没法做到的,但是如果你想要你的应用能够实现这个功能,你应当要使用符合RDF模
型的数据。但是,如果如果你要搭建系统,但是你只希望这个系统具有今天图书馆系统的那些功能就够了的话,你就没有必要使用语义网的技术。

2、一个URI(统一资源标识符)是一个标识符,它起到标识的作用

图书馆世界对于使用URI结构的标识符存在许多担心。人们的担心主要表现在“Mark
Twain”会被“http://id.loc.gov/authorities/n79021164”这样的东西取代,展现在读者面前的书目记录就会是下面这个样子:

http://id.loc.gov/authorities/n79021164
Adventures of Tom Sawyer

或许他们不得不等半个小时才能得到结果,因为结果要从远在瓦努阿图的服务器中传送过来。这个看法误解了使用标识符的目的。URL并非是人类可读的显示形式的
替代物。它是一个标识符。它起到标识的作用。尽管我的医疗保险可能把我标识为p37209372,我的大夫还是知道我是Karen。但是,这个标识符能把
我和医疗保险中的许多其他Karen区别开。不管在你的应用中,数据是不是只包含标识符,但是,数据包含一个标识符以及一个首要的显示形式,或者数据包含
一个标识符以及一些不同的显示形式(比如不同语言的显示形式),这都能够称得上是应用,并且满足应用的需求了。要点在于,在数据记录或者数据库中存在标识
符和使用人类可读的形式并不矛盾。

那么,为什么我们要使用标识符呢?标识符能够在错综复杂之中为你提供准确性。对于图书馆的读者来说,责任者n790211164可能是“Mark
Twain”,但对另一些人来说就可能是“Ma-kʻo
Tʻu-wen”,但是如果我们给这两个作者使用了相同的标识符,我们就知道其实他们是一个人。类行星体冥王星(Pluto)和动画人物Pluto的标识
符不同,因为它们是两个不同的东西。它们在某些语言中具有相同的名字是没关系的。标识符并不是为人设计的,但是它很重要,因为机器不能(还不能?)处理自
然语言中的含糊之处。使用标识符,机器就有可能处理像“Herman Melville是Moby
Dick的作者”之类的陈述,而不必理解每一个单词的意思是什么。如果Melville是A123,Moby
Dick是B456,作者关系表示为x->,那么机器就能够回答诸如“A123
x->的所有实体包括?”这样的问题,而这个问题人类会翻译成“Herman
Melville都写过什么书?”

我们通过自身的经验能够知道,建立标识是一件困难的事情。随着我们越来越多的依赖标识符,我们需要意识到,准确的理解某个标识符代表的是什么是非常重要的。
某个图书馆给“Twain,
Mark,”建立了一条规范记录,它表示的可能是一个人,实际上,它表示的是一个“个人责任者”,它可以是一个人,但也可以是一个自然人的作者所使用的许
多笔名中的一个,还可以是许多作者共同使用的一个名字。它的定义和你的比如说IRS或者医疗保险上所使用的人名是不同的。我们也可以很肯定,除非是奇迹,
否则所有人不可能都接受同一个标识符或者标识符系统,所以我们需要转换的系统,能够在不同标识符之间进行翻译。它的工作方式有点类似于xISBN,你输入
一个标识符,继而可以得到系统认为是等价(对于某种标准的“等价”)的一个或者许多个标识符。

3、功能性书目系统之钥在于数据

人们对于图书馆系统已经表达过许多不满。毫无疑问,这些系统存在缺陷。但是,底线是系统处理数据,所以它的关键就是数据。图书馆数据是高度受控的,尽管如此,这些数据设计的原则主要还是显示给人类读者看的,这是一种特定类型的显示方式。

一个严重的问题就是图书馆所谓的“规范控制”。特定的实体(个人、团体、主题)识别为一个特定的人类可读的字符串,创建的记录可以包括这个字符串的不同形
式,以及和这个记录所描述的实体有关的其他字符串。这个信息和书目记录分开存储,后者在资源著录中使用这些字符串。不幸的是,规范记录中的数据并非是为机
器处理而设计的。很难找到简单的例子,所以我举一个经过简化的例子:

US(或者U.S.)是United States的缩写。目录需要告诉读者他们必须使用United
States进行检索,不能用US,或者目录必须允许用这两个词都能检索。规范控制的记录写着:“US,参见United
States”。

当然,United States出现在许多名称中。你或许会认为“United
States”出现的每一处都有这样的参照,比如说United States. Department of State有一个U.S.
Department of
State的参照,告诉使用者说后者不是一个规范的名称……但是实际上没有这个参照。我们假定从U.S.到United
States的参照会不知怎样的应用在所有包含U.S.的条目中。当然,除了不应当应用这个参照的条目,比如说US Tumbler
Co.或者US Telecomm Inc.(但是US Telephone
Association却有)。这里有一个模式,但恐怕这个模式无法通过算法获知,对于我们人类来说也并非一目了然。但是,结论就是,如果你想要机器来处
理你的数据,你必须要按照机器工作的方式来设计你的数据:它们孜孜不倦、感觉迟钝而且愚蠢到让人愤怒的程度:“US”要么和“United
States”相等,要么就不等。

另一个困难产生于理想数据和现实中的数据之间的差别。如果在数据库中只有一半记录有关于作品语言的条目,要是你搜索语言,保证有许多资源的记录永远是搜索
不到的,尽管它们符合你的搜索条件。我们不想要我们的系统笨到只能处理在所有记录里都能期待出现的几个数据元素,但是提供不存在的数据是困难的。使用全文
检索的优点之一在于,我们有可能判断作品优先的语种,即便语种信息没有记录在元数据中,但是如果只处理元数据,这件事你就无能为力了。

如果我们从系统需求的角度研究数据,那么我们可以对图书馆系统作出许多改进。我们不应该用理想化的形式,因为我们永远不可有完美的数据,我们应当研究我们
希望的功能,进而研究我们应当怎样改进数据来支持这样的功能。我们今天的目录数据很好的支持了卡片目录的功能,但我们还没能把它转换到真正机器可读的数
据。也许有一些事情是我们决定不能做的,但是我觉得有一些真正非常划算的可能是我们应当认真考虑的。

接下来……我要进入Martha文章中的问题了。

【翻译】OCLC报告:联机目录:读者和图书馆(一)

下载地址:http://www.oclc.org/reports/onlinecatalogs/default.htm
图林中文译站:http://www.libspace.org/archives/online-catalogs-what-users-and-librarians-want.html

执行总结

终端用户对于网络的期望以及他们在网上的工作实践决定了他们是否使用图书馆联机目录。目录的界面是很重要的,但是目录数据的质量是另外一个重要的因素,它影响了读者以及图书馆员和工作人员对于目录是否有用的判断。OCLC成立研究小组,进行一次全面的、基于事实的研究,以理解目录数据的“质量”都是由哪些因素构成的,本研究的目的是:

l
识别并且比较目录的终端用户以及图书馆员对于数据质量的预期。

l
比较不同类型的图书馆员对于编目数据质量的预期。

l
提出增强编目数据质量的建议,这个建议要考虑到终端用户和图书馆员两方面的看法。

读者如果想要明确哪些要求能够改进编目数据,他们会发现这份报告有助于他们获得构思。读者如果想要在下一代的图书馆目录以及ILS中,贡献、吸收、整合、同步或者关联不同来源的数据,也会从本报告中受益匪浅。

经过选择的核心的观点:

l
对于期望的资源,用户获取的体验和发现的体验相比同等重要,甚至更为重要。

l
用户依赖并期望增强的内容,包括概要/摘要以及目次。

l
高级搜索的选项(支持分字段的搜索)以及分面帮助用户精炼搜索、导航、浏览并管理数量大的结果集。

l
终端用户以及图书馆员希望的数据目录质量加强方式存在显著的差别。

l
图书馆员和工作人员与终端用户一样,都是带着目的使用图书馆的目录以及目录中的数据的。终端用户通常想要找到并获取他们所需要的信息,图书馆员和工作人员通常是完成他们的工作。图书馆员和工作人员的工作影响了他们对于数据质量的偏好。

l
图书馆员对于数据质量加强的选择反映了他们对于目录准确性以及目录中结构化数据的重视。

结果反映了两种现实中的信息组织的方式——一种来自图书馆,另一种来自网络。图书馆员对于数据的看法在很大程度上仍然受到他们专业经典原则的影响,而终端用户对于数据质量的预期在很大程度上来自于流行网站上信息组织的方式。我们现在需要做的就是把这两个世界中最好的部分整合起来,扩展图书馆联机目录质量的定义。

本报告的结尾提出建议,我们应当在数据质量计划中平衡终端用户和图书馆员对于联机目录的希望,继而,我们提出了一些对未来研究的建议。

【翻译】图书馆事业的基础

图书馆事业的基础

from The Bruised Edge by ksclarke 

 

 

 

所有的图书馆员是否具备某些共性呢?一些人可能会说辅导(instruction)是图书馆事业的共性。我不同意。我的选择是图书馆科学五定律
为了进一步总结这五个定律,有人可能会说图书馆事业应该是以服务为导向的。但是,这种服务的导向并不需要表现在面对面的互动中。实际上我想说,图书馆中绝大多数的服务都和图书馆员或者工作人员与读者的互动无关。我这么说并不是要抹杀参考馆员工作的重要性,我只是想说只要读者和图书馆系统的任何一部分
(分类系统、网络、目录、桌面的电脑,等等)产生互动,也就随之产生了服务的问题。

 

 

有鉴于此,图书馆中的所有团队(部门)都应该是以公共服务为导向的。如果一位读者坐在图书馆电脑的前面,却找不到她在找的软件(不管因为任何原因,
系统并没有如预期那样产生功用),这就是某种失败。如果一位读者在书架上找一本书,但是找不到,因为这本书被放错位置,这也是一种失败。如果一位读者在图书馆网站(或者目录)上找不到她在找的信息,因为标记或者内容(或者是目录)的质量不够,这也是一种失败。是的,图书馆员能够帮助人们解决这些问题(或者找到能够提供帮助的人),但是我敢打赌绝大多数读者都找不到这些图书馆员。我们只是期待问题自己平复下来。

 

 

有趣的是(在我自己的经验中)图书馆员并没有统计图书馆所有部门在公共服务方面的数据(比如说,我们通常统计有多少书被重新上架,但却没有考虑读者是不是能够找到这些书……或者,我们统计了我们评估并重新搭建网站的次数,但却没有统计读者要点多少次鼠标才能检索到一个资源)。我确定,这部分是因为我们选择统计的事情是比较容易统计的(就像长得比较低的果实)。但是,统计的东西通常也就是我们重视的东西,所以我们现在是不是在帮倒忙?我会就这个问题再写一篇文章。

 

 

所以,我们怎么知道我们的工作做得是好是坏呢。一种方法是我们日复一日从读者那里获得的口碑。另一种方法是问参与互动的人们的感受(并且鼓励他们分享经验)。再有一种方法是通过系统日志观察用户的行为(比如说点击数或者花在一个页面上的时间,等等)。你也能在我们这个领域的研究中找到关于用户需求和用户行为的有用的信息(通常混合了前三种方式)。当然,另一种方法就是进行可用性的研究以及/或者让使用者说出他们自己的体验。我认为所有这些方式单个说来都存在不足,但是放到一起就运行良好,并且让我们能够充分了解我们的读者。

 

 

我们并不期望每一个图书馆员都有这些收集信息的活动的经验。图书馆科学的第五定律是“图书馆是一个成长的有机体”。这意味着图书馆具备某些有机体的特征,而且,我要说,图书馆就像任何有机体一样,也有不同的部分——每一个部分都对整体起到不同的作用。我们并不期待参考馆员研究网络服务器的日志,分析其中的内容(或者为新书做编目)。因为这些工作都需要一些特定的技能。教授课程、进行一次参考采访(reference
interview)或者主持一次讨论会也需要特定的技能。

 

 

你可能会觉得每个人都能学会这些技能(你会说其实这些事情需要的技能并不需要像别人认为的那样多),而且实际上任何人都有可能能够学会进行参考采访,或者学会编程,把图书馆的代理服务器以及图书馆网站上的数字资源整合到一起。如果事情属实,我们所有人就都是一样的了(例如,图书馆中的每一个人都能做其他任何人的工作)。

 

 

但是我觉得事情不是这样的。当然,我们能学会一些事情(因为很多事情可能都具备相同的特点,我们也就可以通过训练举一反三),但是做好这些事情是需要许多时间和精力的。初级程序员和专业人员之间的差别是明显的(比如说完成程序所花费的时间,以及产出的成果)。我觉得教学也是如此。刚走出学校的老师和有十年经验的老师的差别也是明显。我们图书馆员需要的难道不是帮助读者、做数据、选择某个特定领域的书以及创建网站方面的专家么?

 

 

如果有足够的时间,许多图书馆员(当然不是所有人)都能成为有经验的辅导员或者程序员(或者编目员或者图书采访馆员)。但是我关注的是,在这段时间里,他的精力必然集中于某个领域(也就是说,他必然没法关注其他的领域)。这当然是图书馆的权利(来相应调节一个人优先考虑的事情)。一些人可能会觉得辅导读者的需要比使用图书馆网站的读者的需要更加重要(或者试图检索图书馆的特藏的读者的需要,其中许多资源都未经处理或者还没有对他们开放)。

 

可以肯定的是,我们必须实现某种平衡。但是,我担心图书馆员因此就忽略了另外一些活动,并且如果主要进行读者辅导的图书馆员得知这些信息可能会有不好的效果。这看上去抹杀了其他活动的价值,更模糊了它们在读者查找所需资源过程中的重要性。我曾经说过,编目工作是图书馆的基石。但是如果我们开始不仅仅关注系统的功能,我会觉得读者与之互动的系统才是最重要的。

 

我知道参考馆员和辅导馆员如何通过有色眼镜看待这个世界。我觉得我们需要的并非是对于图书馆科学的概览,我们需要在图书馆不同区域/责任之间建立更好的沟通(以及更准确的评估读者的需求是否得到满足)。我们需要一个更加有机的图书馆,它与人、资源以及系统产生互动,而且能够回应所有的读者需求。

首都图书馆用户调查一则

时间:2008.10
地点:地坛书市
方式:问卷调查

共收回问卷1849份

年龄:19-30岁(30.6%)、46-60岁(26.9%)、31-45岁(23.1%)、61岁以上(15.8%)
文化程度:大本(36.3%)、大专(28.2%)、高中(19.1%)、初中以下为11.4%,研究生以上为5%

听讲座的目的:求知(>75%)、休闲&研究<25%。但在45岁以上的人群中,休闲的比例在25%以上。

最喜欢的栏目:健康讲堂(36.5%)、文化艺术系列讲座(28%)。其余包括:乡土课堂、上品课堂、魅力课堂、工艺美术讲座,都在10%上下。

获取讲座信息的途径报纸刊物、馆内海报或宣传单、网站都在20%以上。其余包括亲友告知以及其它途径,都在10%左右。(分学历的计算中,学历越高的人选择网站/海报宣传单的越多,选择报纸刊物的越少,为什么?)

感兴趣的讲座主题(可以多选):一共有文学艺术、政治军事、经济金融、自然科学、传统国学、历史地理、收藏鉴赏、哲学心理学、生活养生以及其他10个选项。生活养生为41.1%,文学艺术为34.7%,其余(除“其他”之外)都在30%以下、10%以上。历史地理、传统国学和收藏鉴赏在20%以上。
/ 文学艺术、传统国学、历史地理、哲学心理学这三个选项,学历越高的人越倾向于选择,收藏鉴赏、生活养生这两个选项学历越低的人越倾向于选择,其他的选择无
明显倾向。

希望的讲座时间:周六日(77.6%),工作日(22.4%)

是否愿意参加读者俱乐部:愿意(92.2%)

————

另一个部门做的,看到有结果就正好拿过来看一看。希望大家提出对这个调查本身的意见和建议,也希望能对大家有所参考~