【翻译】AACR2的“责任说明”和DC的“创作者”

原文地址:http://metalogger.wordpress.com/2008/06/02/aacr2-statement-of-responsibility-vs-dc-creator/

作者:

译者:Nalsi

 

对于图书馆员而言,“责任说明”一直都运作良好,它同时是检索点和对于资源的描述。规范文档则能够在逻辑上解决名称变异的问题。

 

都柏林核心元素集(Dublin Core)的属性(property)“创作者”(creator),则没有这么容易管理,你使用仓储(repositories)不久之后就能发现这一点。作者的姓名和机构(affiliations)是有问题的:怎样处理多个机构以及定期改变机构的情况?怎样储存或者链接到作者的个人或者机构页面、博客和wiki、电子邮件地址、名称变异以及其他的联系信息?

 

如果你试图通过“责任说明”的方式进行思考,即便是仅仅试图在量上扩展AACR2的概念,都会在机构仓储(IR)的环境中失败。

 

因为IR的世界试图把创作者当做两个截然不同的概念来处理,它们绝不可能相同。

 

一方面是出版的文档上创作者的姓名。这里的姓名就是“责任说明”,它也是对于文档的描述。“这本书是A.B.写的。

 

但是另一方面,我们希望把创作者当成是坐在办公室电脑前的一个人,他有工作的历史,还在进行若干专业活动。在这种情况下,创作者就绝不可能是“责任说明”,除非是一些开玩笑的评论。

 

所以,这两个“创作者”概念之间的关系是怎样的呢?

 

前者是后者的表达(expression)。(但我并没有用这个词在FRBR模型里的意义)出现在文档题名页上的姓名是坐在办公室里的人的表达。那个人的每一本新书都会有一个新的题名页,来表达这个创作者。

 

有时候,这个创作者会使用一个不同形式的名称;有时候,他们在一个不同的机构;有时候,他们会成为许多作者中的主要作者或者联系人,也有可能是单独的作者或者次要的作者。

 

所以一个真实的创作者能够,而且实际上经常有多个创作者的表达。这种区分看起来就像是吹毛求疵的区分你不同部位毛发,因为我们的直觉能够告诉我们哪个是哪个,不可能搞混。但是计算机程序可没有直觉,所以对于计算机来说,吹毛求疵的区分是必要的,这让它们能够理解这些内容,为我们所用。


AACR2只关注创作者的表达,也就是它所谓的“责任说明”。它只想要管理纸质、声像或者一些电子资源,但并不想管理实际的作者。


如果AACR2可以被看作是为了二维的资源而设计的,那么我们现在可能要开始关注虚拟的三维馆藏资源,只要我们开始得到组织和财政上的支持。因为上面这句话可能暗示了,社区不仅仅需要重视“文档”或者“图像”或者“数据集”资源的检索点,它们还需要重视“创作者”的资源,哪怕只是创作者的数据库,或者检索点。

 

(机构和财政支持的需求需要和社区的支持结合起来,后者需要领导力和教育上的努力……但这就是另一个故事了)


尽管我并没有使用expression在FRBR中的意义,但是FRBR模型把dc的术语“创作者”分配给了作品实体,并且把“代理”(agent,个人姓名和细节)单独列为另一个实体,它就是通过这种方式来处理这个问题的。

 

DCMI术语和DC抽象模型从技术上更详细的解释了这个问题。

 

DCMI中的“创作者”是一个“属性”术语。它的定义是:“对创作资源负有主要责任的实体。”


Other property terms include “title”, “subject”, “type”, “publisher” and heaps more.

其他的属性术语还包括“题名”、“主题”、“类型”、“出版者”及其他。

 

除了“属性术语”,DCMI还使用“类别术语”。其中包括:Agent、BibliographicResouce和MediaType等等,但是数量没有属性术语多。

 

DC抽象模型(DCAM)表明,一个属性可以属于任意数量的不同类别。“创作者”的属性在逻辑上能够同时属于Agent和BibliographicResource两个类别。

 

因此,创作者是一个独立的属性,能够从属于其他类别,但是不会和其他类别混为一谈。

 

老的“责任说明”就是它字面上的意思,是对题名页或者封面的描述性说明。它在图书馆使用的一直都很好,因此值得尊敬的纪念。

 

国会图书馆北美MARC数据市场报告

2009年1月,LC和R2咨询公司(R2 Consulting LLC)签约,进行调查,研究当前美国和加拿大图书馆中书目数据的生产和流通的情况。今天看到报告出现在了LC网站上。(pdf文件

研究目标(p. 3):

  • What is the overall cataloging capacity in North America?
  • Where does it reside?
  • What are the primary distribution pathways and channels for sharing records?
  • How much redundancy is there?
  • What can we predict about cataloging capacity over the next 5‐10 years?
  • What is the estimated need/demand? How does this compare with capacity?
  • What is the relative importance of authority control to libraries?
  • What is the current reliance by North American Libraries on LC cataloging?

为了这次调查,R2建立了一个Ning社区(有墙),共有800多名用户注册。还分别针对图书馆和MARC系统、流通和数据提供者就行了调查(问卷:图书馆问卷提供者问卷),一共有972家图书馆和70家数据提供者参与了调查。(p. 15,作者提到,像OCLC这样的非营利性的图书馆联盟在数据的生产和传播中也起到很重要的作用,但是这些机构在很大程度上没有参与这次调查)

以下是这次调查的几个主要结论(p. 4——详细内容参考第三、四两章):

  1. Library of Congress cataloging continues to be widely valued: LC的数据仍然是编目市场的基石。根据报告提供的数据,LC的OPAC和Z39.50端口每天要接受50万次查询。
  2. The Library of Congress subsidizes portions of the market: LC制作了很多超出他们自身馆藏范围的数据,这部分数据对于他们没有直接收益。
  3. LC records are significantly underpriced: 1902 law(待查)规定LC只能收取数据流通的费用,但是制作数据的费用由LC来承担。
  4. Cataloging
    backlogs continue to grow in many areas and market segments:
    56%的图书馆报告他们的编目积压在增加,分领域统计,报告增长最多的两个领域是DVD和视频资料以及英文专著。(p. 11)——后文又提到DVD编目实现在美国图书馆面临的最大问题之一。
  5. There
    is adequate cataloging capacity in North America to meet the collective
    need: 即便说很多老的编目员都退休了,但是现在美国和加拿大图书馆中的编目员还是太多了,而不是太少了。
  6. Cooperative cataloging has not realized its full potential: 问题不在生产能力这个环节上,报告认为当前合作编目仍然不够。
  7. The market for cataloging records is conflicted: 图书馆在“社区”价值系统中,他们重视开放、获取和免费,但是数据上处于“商业”价值系统,他们需要可持续增长和利润。
  8. The market provides insufficient incentives to stimulate additional original cataloging
  9. 80%
    of libraries edit records for English‐language monographs in their
    local catalog: 绝大多数修改就是为了满足本地的需求。但是作为对比,只有50%的图书馆上传他们修改后的数据。(p. 7)
  10. 78% of libraries are unaware of any restrictions on MARC record use or redistribution

第二部分是对于图书馆调查结构的总结。12页公布了几个关于套录数据的统计:

  • 最可靠的套录数据源:OCLC、LC、AMICUS。学校图书馆(school library)则主要依靠LC的Z39.50和数据商提供的数据;
  • 最常进行的本地数据修改的内容:Adding pagination(增加页数?);为儿童读物或者非英文材料改变标目或者删除标目;增加内容附注;增加Dewey号以及Sears主题词;修改出版时间;增加或者编辑urls;
  • 对于“没有套录数据,你最长可以等多久”这个问题,回答最多选项的是3-6个月。

13页提供了几个关于规范控制的统计:
Academic    Public     School

  • Access to a current file:         73.8%       55.3%     42.4%
  • Access to a non‐current file: 30.2%        38.1%    23.4%
  • No Access:                              .8%       9.5%      35%

对于上述三种图书馆,分别有2.3%、7.7%和28%的图书馆不进行规范控制,分别有36.2%、17.3%和6.7%的图书馆把规范控制的工作外包。对于这一部分,我很好奇国内的图书馆的情况是怎样的。

80.6%的图书馆因为ILS或者数据库的限制没法有终端用户增加内容,但是除了学校图书馆以外,所有正在计划更换或者升级ILS的图书馆都在考虑这个功能。(2.0在美国已经这么强大了么?)

第三部分是对于数据商调查结果的总结:

16页上有一张图很有趣,在参与调查的数据商中,提供电子书数据的数据商比提供专著数据的数据商还要多(39% vs. 35%)。作者分析原因,认为可能是因为传统的数据商现在同时提供两种数据,但是电子书的销售者只提供电子书的数据,所以造成了这样的统计结果。

 

18页以下有很多关于数据上的统计资料,其中很多都很有意思,值得一读。选择几条如下:

在70家数据提供者里面,有50家生产MARC原编数据,其中又有31家生产完全级或者核心级数据。

第三部分的标题为“冲突的市场”(p. 24)。第32页用下图概括了当前的编目市场的总体状况:

 

 

绿色是传统层,在传统层中的实体创建以及/或者购买以及/或者销售MARC数据。据估计,大概三分之二的北美图书馆都包含在这一层之内:

  • 97% of academic libraries operate primarily within the traditional green tier
  • 63% of public libraries operate primarily within the traditional green tier
  • 65% of school libraries operate primarily within the traditional green tier

蓝色叫做“机会主义层”,这一层的技术标志是开放的数据库以及Z39.50端口。随着图书馆经费紧张,越来越多的图书馆开始使用上述两种技术,但是只有以此作为数据主要来源的剩下三分之一图书馆才属于这一层,同时这一层也包括开放式据库的提供者。

紫色叫做非图书馆层。在这一层,新的技术和MARC之外的格式得到了使用和开发,大规模的数字化项目也是从这一层开始的,一方面这一层和之前的两层存在某种
互动(比如有些书目机构开始从Google
Books这样的服务中收割数据,或者图书馆在OPAC中建立Google服务的链接),但这一层也是对于当前图书馆服务最大的挑战(包括上面提及的两种
系统的冲突)。

作者认为LC属于第一层和第二层之间(因为Z39.50技术和免费的开放网站),OCLC横跨第一层和第三层,而OCLC的成员属于第二层(作者以此解释了前一段OCLC数据版权问题的争端)。

本报告的附录B是一张对于服务、数据提供者很全面的描绘。报告21页详细的描述了这张图,这张图把提供者分为七类:

  • Material Vendors and Aggregators
  • A subset of foreign material vendors
  • Commercial bibliographic utilities (CBUs)
  • System Vendors
  • Academic Publishers
  • Binderies
  • Noncommercial Entities ‐ including consortia, cooperatives,
    national libraries, open database providers, regional networks, etc.
    (this universe is vastly under represented)

这张图很博大精深,我需要更仔细的学习之后才能发表评论。

 

参见:

Metalogue:The Market, the Commons, and the Library of Congress

LC News:Library of Congress Releases Reports on Bibliographic Record Production

Dianne Hillman: Bugs in Amber 【译文:琥珀中的蠹虫 @译言】

【翻译】MARC必须死掉

链接地址:http://www.libraryjournal.com/article/CA250046.html

作者:Roy Tennant

译者:Nalsi

————

MARC产生之时,披头士组合还刚刚成立,当时我们还穿着让人尴尬的衣服,梳着让人尴尬的发型。当时的电脑体积庞大,结构复杂,价格昂贵,我们谁也想不到,有一天我们家里会摆着一台电脑,甚或手上提着一台电脑。尽管时代本身并不一定让技术过时(过去40年里,木质铅笔有多少进步呢?),但是电脑标准的发展却突飞猛进。

MARC在某种程度上就是一种时代错误。它刚开始出现的时候,电脑的内存、存储工具以及计算能力都水平很低而且价格昂贵。但是,这些东西现在已经是无所不在而且非常便宜了。

Marc的时代

你看一条MARC数据就知道我是什么意思了。但是别太费心就好。只有两种人相信自己不用查一大堆资料就能看得懂MARC数据:少数顶尖的编目员或是烂醉之人。在MARC数据中,字段的意义并没有明白的标示出来,相反,它是用数字形式表示的,所以不熟悉这套复杂句法的人理解不了它们。但是这种不知所云的困惑(尽管烦人)却并不是MARC让我们遇到越来越多问题的原因。

MARC 的问题又多又严重,这就是为什么我们之中的一些人越来越确信,MARC已经不再有用。比如说Dick Miller的幻灯片:“XML和MARC:选择还是替代?”David Flanders在文章中也说:“MARC的刻板和内在的不规律开始给编目员和用户带来问题。如果把XML应用在书目描述上,MARC已经落后于当前对于书目描述标准的研究了。”

在这个专栏中,我用MARC指称几件相互关联的事清,其中包括MARC句法,MARC数据元素以及《英美编目条例》。这些事情相互关联的太厉害了,所以梳理的工作(这是必须被抛弃的想法)和从头再来至少是一样困难地。在下个月的专栏文章中,我将会通过研究放弃MARC的策略来仔细研究这个问题。现在,让我们来仔细观察几个具体的问题吧,这几个问题都汇聚了上述我们称之为MARC的标准。

粒度

MARC是一个复杂的标准,但是它却缺乏最基本的控制和平衡,也就不能保证在编目的时候实现合适的粒度(也就是描述单个元素的细微程度)。比如说,一本书的编者应当标目在700字段,用|e表明这个人是编者。但是编目机构通常都不采用|e这个子字段,因而人们只能猜测700字段的这个人到底是怎样的角色。

在许多情况下,人们只能通过参考题名字段才能得知编者的身份。这件事是因为MARC和AACR2在很大程度上专注于把编目卡片的格式转化成为电脑的格式。在题名的字段中,你会觉得只能找到一本书的题名,但是这个字段实际上存在着奇怪的附加物,比如说会有“edited and with an introduction by Peter Green”这样的内容出现在一个子字段之中。Peter Green编辑了这本书不应当掩藏在题名字段的一个子字段的字符串中。还有一个更加惊人的例子是,编目往往混淆了个人名称的名和姓。

可扩展性及语言

把我们的编目从卡片转移到电脑中是一项浩大的工程,而且还远没有完成。一些图书馆正在往这些数据中增加额外的信息,来丰富这些数据,比如说目次表。尽管把目次表放到MARC数据中是可能的(参见Blackwell以骇人听闻的细节描述了他的“目次表扩展服务”的计划),但这并不恰当。从根本上讲,MARC是平的,而目次表却是等级结构的。这在XML语言里却只是个小事情。(想要了解更多的MARC翻译成XML的信息,参见XMLMARC网站)

我甚至无法想像我们能够在MARC数据的哪里放下一本书的封面图像(或者是书封信息、评论),好让这些信息既容易让那些需要的人获得,又容易让那些不需要的人无视。

MARC至少提供了一些手段来处理多字体的资源(比如说一本书有中文的题名以及翻译过来或者转写的题名),但是MARC操作的方式让它很难用软件来处理。比如说,相关题名之间的关系在MARC中就是个问题。关于这些问题的更多信息可以参考Moving from MARC to XML网站。

技术的边缘化

MARC从来都是一个神秘的标准。没有其它任何一种职业使用MARC或者类似于它的东西。如果我们去采购软件来处理这些数据,我们只能局限在图书馆卖主的小市场环境中。对于这些人来说,他们设计的系统必须能够用MARC格式导入/导出数据。

但是更广阔的信息产业都在向XML转移,把它作为建立、交换信息的方式。这种转换并不意味着我们放弃当前的系统,转而使用任何基于XML的搜索工具。但是如果我们重新设计我们的书目记录标准,让这些标准使用XML格式,卖主会发现用何种方式生产我们需要的产品既便宜、又方便。

真正的原因

图书馆存在是为了满足当前以及未来用户社区的需求。为了做好这一点,图书馆需要使用能够提供的最好的技术。随着网络、XML、可移动计算的兴起以及其他技术的发展,图书馆能够更加灵活,能够更加迅捷的作出反应,用更加激动人心的方式为他们的用户提供服务。当然图书馆也可以不这样做。如果图书馆坚持过时的标准,他们会发现,想要像他们所期望的那样为他们的用户提供服务会变得越来越困难。

为了让标准既足够满足当前的需要,也足够灵活来提供新的机会,我们需要从书目记录的要求开始(比如,你可以看一下FRBR),继而发明出新的编目标准,来提供力量以及灵活性。这显然是一个巨大的工作,而且需要国会图书馆以及OCLC这样的机构参与进来。我们在30年前做了一次,现在,我们能够再做一次。MARC是在披头士的时代诞生的,现在已经到了展示出漫长而曲折的道路的时候了。

————

译者的话:看的时候才发现,这篇文章竟然已经7年了,7年之中,我们又有多少进步呢?

【翻译】思考链接

原文地址:http://kcoyle.blogspot.com/2008/09/thinking-about-linking.html

作者:Karen Coyle

译者:Nalsi

————

我前一篇日志谈到了“可提供性”(affordances),我总结出两种元数据的连接,内在元数据连接和交互元数据连接。我感觉这里非常混乱(其中一些混乱就是本人造成的),所以我决定在这里分解一下头脑中的垃圾,在这个领域内开始一次新的对话,看看我们是否能够得出一些结论。

 

根据RDA所包含的FRBR,存在一种“基于关系/实体的模型”(relational/object-oriented
model
)。我对这个东西有一些基本的质疑,因为我觉得基于关系的模型和基于实体的模型是非常不同的。这个关系/实体的概念会让我愣下神——一些东西听上去是有意义的,但是我无法理解它的意义。所以我决定把它看作是在一条书目数据内部的一组关系。

 

FRBR/RDA的模型中存在着实体:作品、内容表达、载体表现、单价(WEMI),还有个人、团体、概念、实物、事件和地点。有趣之处是所有这些实体都不是单独存在的。这是一个互相依赖的实体群,不是单独的数据的集合。这让我们难以想象,因为今天的模型实际上是由单独的书目数据和规范数据(包括名称和主体)组成的。但是书目数据包含来自规范数据的标目,所以书目数据本身是完整的,这个事实扭曲了我们的看法。规范数据,即便是名称规范数据,实际上是受控词汇表。这些词汇表有助于书目描述,这意味着,我们需要找到一种方式,实体本身以及实体之间的连接都能得到表达。

 

而且,我们需要决定数据的定义是什么。一个人要描述一部作品,他必须描述其创造者,那么看上去作品个人(或者团体)都必须是同一条数据的组成部分。否则,这条数据就不能独立存在。所以,数据中包含了个人意味着什么,而这个实体又出现在哪里呢?或者,一个不确定的连接指向这个(假想的)实体是否足以让这条书目数据变得完整?换言之,如果这条书目数据(它是作品的一部分)有一个连接指向一个存在于别处的个人,这条书目数据是否完整?

 

注:我重新读了FRBRFRANAR中论述实体个人的部分。FRBR中只在个人这一部分只提到“人名标目”,而FRANAR的实体个人则有许多其他的元素。这和我们对于个人名称字段和个人规范数据的分别是相同的。

 

书目实体之间还存在其它类型的关系。在我看来,一共有两种关系:独立的和从属的。从属的关系出现在WEMI实体之间,这些实体本身都不是完整的。实际上,我把WEMI看成是存在相互依赖的各个部分的单一实体。(我承认,这是当前图书馆编目的看法,一条扁平的数据包含了同时存在于单一实物之上的所有书目等级的信息)

 

需要指出的是,在图书馆编目数据的意义上我把WEMI看作是单一的实体。这个实体的不同等级对于它自身来说是有意义的。比如说,一部文学批评通常指的是一部作品,或者是内容表达。出版商或者书店的广告提到的是载体表现。图书馆识别并流通单件,古书商人处理的基本上都是单件。

 

独立的关系即不同书目实体之间的关系:

作品作品:两部作品相互映射或相互参照(被引用,引用,一部作品根据另一部作品而来,比如戏仿或续编)

整体部分:一部作品包含在另一部作品之中(文章和杂志,章节和书,卷册和丛编)

单件单件:所有类型的复制

 

在更大的程度上,这些关系都可以表达为属性,isCreatorOf, isExpressionOf,
isCitedBy
。但是存在两种关系的念头在我脑海中挥之不去:如果在元数据的记录中没有这种关系就会出现空白的关系,以及书目项目之间的关系。我惊讶于复杂实体内部及其之间的连接。比如,请想象一条书目数据连接了储存在SKOS格式中的主题词汇。这条SKOS记录中有许多字段都是关于preferred and alternate
headings
(忘了规范的翻译是什么了)、概念、向广义词语和狭义词语的连接,以及所以这些在各种语言中的表现形式的。如果书目记录中的属性具有“该词汇在法语中的定义”又会如何呢?它会连接到哪里?或者它只能够指向作为整体的词汇表?