BIBFRAME的最新进展:背景、FRBR及其它

美国时间的今天下午,借由学校图书馆的便利旁听了NISO和DCMI共同主办的一个webinar,题目叫做“把图书馆目录翻译成关联数据:书目框架行动的最新进展”(Translating the Library Catalog from MARC into Linked Data: An Update on the Bibliographic Framework Initiative),主讲人依然是书目框架行动(以下称为“BIBFRAME”)的灵魂人物Eric Miller。

(八卦一则:听同听会的一个图书馆员说,她看到这个ppt好几遍了,而且几乎没有什么改动。)

————————报告的分割线————————

整篇报告分成了4个主要内容:

  • BIBFRAME的设计
  • BIBFRAME和关联数据
  • BIBFRAME综述
  • BIBFRAME的最新动态

下文是本人听会之中的一些笔记。关于BIBFRAME的介绍,各位可以参考国会图书馆去年11月发表的报告草案,以及精灵师和本人之前的博文若干篇。

————————听会笔记————————

关于书目框架项目的目的,Eric在报告的文本之外做了一个很有趣的说明(参考ppt的4-7页):书目环境要稳健以承载传统,灵活以容纳未来;社区包含图书馆、档案馆、博物馆、出版社等等,及其所服务的社区(图书馆的服务不仅帮助社区的参与者,还要帮助社区服务其所服务的社区,这是最近让我很有感觉的一个愿景;但是在后面的讨论中,Eric在回答另一个问题的时候提到,这个项目的社区在某种意义上也是关联数据的社区,图书馆可以为更大的关联数据社区建立某些准则,在不同的元数据环境中间建立桥梁。这对我来说是很大的野心。);并且基于网络(”not on the web, but of the web”)。

BIBFRAME的要求:

  • 和MARC兼容
  • 适应于多个内容标准
  • 能够描述和管理传统资源和非传统资源(数字资源、数据集……)
  • 整合规范、分类、馆藏数据
  • 能够受益于网络带来的好处(后文中提到了一个网络触发器的例子,不过基本没有听懂)
  • Eric用乐高的例子来解释BIBFRAME框架,RDF就相当于乐高玩具中的最基本的组块;而BIBFRAME则相当于用这些标准组件组成的最简单的组合。

FRBR:

  • 他提到RDF模型和FRBR及其E-R模型有两个最重要的区别(我希望我没有转述错误,因为对数据库仍然没有那么了解):在ER模型中,所有的键都是本地的;而在ER模型里,关系并不是第一类的对象。(各位可以参考李爵士的论文:Relational Databases on the Semantic Web
  • 在后面回答问题的时候,他也提到两个模型有某种程度的相似,但是并不是百分之百能够吻合的(因为是根据不同的世界观建立的)。但是他认为新的书目框架的关联数据模型并不会取代RDA/FRBR的E-R关系模型。他把二者的映射看作是一种很有希望的解决方案。

时间表:

  • 已完成的:报告草案、模型的原型、道路图和推行策略报告、两次实验者会议
  • 待完成的:更多的实验、更多的文档、向MARC和RDA的词汇表映射、序列化、使用案例、元素集、编目系统原型

最后,他还特别提到了对这个项目感兴趣的人/编目员能够做什么:

  • 学习关联数据(在图书馆社区之内和之外)
  • 参加邮件列表的讨论
  • 注意网站上内容的更新
  • 告诉图书馆系统商

写在论文边上(一):几种“边缘”的MARC格式

“边缘”是我想到下面要介绍的几种机读格式的第一反应,但是我深知这个词很不好甚至于可能是不对的,可是我暂时也想不到更好的说法。Kokabi Mortaza曾经在1990年代中期写过连续四篇介绍MARC历史的论文(对于我来说这当然是一个“经典”的文本),在论文里她(我不太确定是男生还是女生)用了“MARC-like”这个词,不过翻译成中文也是怪怪的。

问题在于,什么是MARC格式?当然所有人都知道MARC就是MAchine-Readable Catalog的缩写,而且MARC格式符合ISO2709的标准(这个标准规定的是格式的数据结构),比如Wikipedia上面就是这么说的。可是,显然任何一个概念都存在边缘地带,下面要介绍的三种格式:MAB、CCF和Mekof-2都遵循ISO2709,为什么它们不是真正意义上的“MARC格式”?我必须承认,我不太懂。

[只是我个人的猜想,对于某一种MARC格式来说,更重要的是它从哪来的,而不是它遵循何种规范。至少上述三种格式都并非来自于其他已有的MARC格式——比如LC/USMARC、BNB/UKMARC或者UNIMARC。]

总之,作为一种习惯性的看法,这三种格式确实不在“MARC俱乐部”之列。接下来就是对这三种格式的简单介绍。

————————

这三种格式在图书馆领域里名气最大的可能就是德国曾经的机读书目格式MAB了,MAB是Maschinelles Austauschformat für Bibliotheken的缩写,直译过来也就是“图书馆自动化交换格式”。MAB 1格式是1960年代晚期开始开发的(作为背景:1968年,英美两国开发出了各自的MARC II格式),1972年正式出版。作为书目格式的后进国家,遵循之前的惯例是最简单的做法,但对于德国来说,遵循英美的格式存在很大的问题。最大的障碍来自于编目规则的差别(著名的“两种编目体系”)——德国当时使用的是Regeln
fur die alphabetische Katalogisierung(RAK,著录规则)和Regeln fur den Schlagwortkatalog(RSWK,主题编目规则);另一个问题是MARC II中缺乏等级的数据结构(UK MARC II比LC MARC II有更好的对等级的表达,但是仍然不够?);最后一个问题就是德国不满意MARC II中子字段的设置。

实际推行的MAB I具有以下几个特点:首先就是严重依赖于编目规则;其次是可以识别出不同种类的数据(比如说多卷册图书和其中的某一卷,并且使用连接技术——文献普遍认为MAB的这一特点是后来UNIMARC的前驱);再者就是这个格式以字段为基础,几乎不使用子字段。这个格式遵循的是德国的DIN1506规范,后者又遵循ISO2709规范(但存在一些差别)。1977年德国开始用这种格式交换数据磁带。

在1992年(?),MAB 1发展成为MAB 2。根据德国国家图书馆网站(2009年3月更新),MAB 2包含书目数据、个人名称、团体机构名称、主题词和本地数据(相当于MARC21的社区格式?)等五种格式,并且计划开发地址和图书馆数据(address and library data)以及分类和记数数据(classification and notation data)两种格式。

当然关于这种格式最重要的一件事就是,德奥两国从2001年开始就在讨论放弃MAB格式,转而使用MARC 21,并在2004年正式作出决定。关于这件事可以参见精灵老师的博文以及德国国家图书馆的专题页面,内容都很丰富(连同放弃使用之前的编目规则,转而使用AACR2——09.11.14更新,Catalogablog报道,MARC21书目、规范、馆藏三种格式已经翻译成德文)。

————————

第二种要介绍的格式是东欧的经互会(COMECON)参与国开发的一种格式:MEKOFMEzdunarodnyj
KOmmunikadvnyj Format),直译为“国际交换格式”。具体而言,它是由位于莫斯科的国际科学技术信息中心(International Centre of Scientific and Technical Information, ICSTI)开发的。这个格式有两个版本,MEKOF-1和-2,前者遵循ICSTI和ISO2709相似的一种规范。后者采用一种比ISO2709更加复杂的结构(比如更复杂的等级结构),人们普遍认为后一种格式开发得更加完善。

这种格式在俄罗斯一直使用到1990年代。(1995年,俄罗斯开始基于UNIMARC开发新的格式。)

————————

CCF(Common Communication Format)是由联合国教科文组织开发的。设计这个格式主要不是面向图书馆社区的需求,它主要是为了解决second services(又是一个我不太明白的词)的目录需求。1978年UNESCO成立了特别小组来开发一种“通用交换数据”,小组包含了众多相关的国际组织的成员,比如IFLA、前面提到的MEKOF和ISO等等。小组决定,新的格式应当兼容当时流行的各种格式,并且应该遵照ISO2709标准。设计CCF主要参考了当时的下述六种格式:

— the Reference Manual [Martin, 1974;
Simmons & Hopkinson, 1992],
— UNIMARC [IFLA, 1987],
— ISDS Manual [ISDS, 1983],
— MEKOF-2 [ICSTI, 1979],
— ASIDIC/EUSIDIC/ICSU-AB/NFAIS Interchange Specifications [ASIDIC,
1978], and
— the USSR-US Common Communication Format [USSR, 1978].

根据这六种格式化约出CCF包含的最小的数据元素。CCF和UNIMARC有些相似,它并不是作为某种具体的格式出现的,它的目的就是为了交换书目数据。作为一种交换格式,它的最大的特点表现为数据元素很简单,而且兼顾各种书目格式的数据结构。

这个格式最终在1984年出版。1988年出版第二版。1992年,CCF格式析为书目信息(bibliographic information)和事实信息(factual information)两部分出版。

国会图书馆北美MARC数据市场报告

2009年1月,LC和R2咨询公司(R2 Consulting LLC)签约,进行调查,研究当前美国和加拿大图书馆中书目数据的生产和流通的情况。今天看到报告出现在了LC网站上。(pdf文件

研究目标(p. 3):

  • What is the overall cataloging capacity in North America?
  • Where does it reside?
  • What are the primary distribution pathways and channels for sharing records?
  • How much redundancy is there?
  • What can we predict about cataloging capacity over the next 5‐10 years?
  • What is the estimated need/demand? How does this compare with capacity?
  • What is the relative importance of authority control to libraries?
  • What is the current reliance by North American Libraries on LC cataloging?

为了这次调查,R2建立了一个Ning社区(有墙),共有800多名用户注册。还分别针对图书馆和MARC系统、流通和数据提供者就行了调查(问卷:图书馆问卷提供者问卷),一共有972家图书馆和70家数据提供者参与了调查。(p. 15,作者提到,像OCLC这样的非营利性的图书馆联盟在数据的生产和传播中也起到很重要的作用,但是这些机构在很大程度上没有参与这次调查)

以下是这次调查的几个主要结论(p. 4——详细内容参考第三、四两章):

  1. Library of Congress cataloging continues to be widely valued: LC的数据仍然是编目市场的基石。根据报告提供的数据,LC的OPAC和Z39.50端口每天要接受50万次查询。
  2. The Library of Congress subsidizes portions of the market: LC制作了很多超出他们自身馆藏范围的数据,这部分数据对于他们没有直接收益。
  3. LC records are significantly underpriced: 1902 law(待查)规定LC只能收取数据流通的费用,但是制作数据的费用由LC来承担。
  4. Cataloging
    backlogs continue to grow in many areas and market segments:
    56%的图书馆报告他们的编目积压在增加,分领域统计,报告增长最多的两个领域是DVD和视频资料以及英文专著。(p. 11)——后文又提到DVD编目实现在美国图书馆面临的最大问题之一。
  5. There
    is adequate cataloging capacity in North America to meet the collective
    need: 即便说很多老的编目员都退休了,但是现在美国和加拿大图书馆中的编目员还是太多了,而不是太少了。
  6. Cooperative cataloging has not realized its full potential: 问题不在生产能力这个环节上,报告认为当前合作编目仍然不够。
  7. The market for cataloging records is conflicted: 图书馆在“社区”价值系统中,他们重视开放、获取和免费,但是数据上处于“商业”价值系统,他们需要可持续增长和利润。
  8. The market provides insufficient incentives to stimulate additional original cataloging
  9. 80%
    of libraries edit records for English‐language monographs in their
    local catalog: 绝大多数修改就是为了满足本地的需求。但是作为对比,只有50%的图书馆上传他们修改后的数据。(p. 7)
  10. 78% of libraries are unaware of any restrictions on MARC record use or redistribution

第二部分是对于图书馆调查结构的总结。12页公布了几个关于套录数据的统计:

  • 最可靠的套录数据源:OCLC、LC、AMICUS。学校图书馆(school library)则主要依靠LC的Z39.50和数据商提供的数据;
  • 最常进行的本地数据修改的内容:Adding pagination(增加页数?);为儿童读物或者非英文材料改变标目或者删除标目;增加内容附注;增加Dewey号以及Sears主题词;修改出版时间;增加或者编辑urls;
  • 对于“没有套录数据,你最长可以等多久”这个问题,回答最多选项的是3-6个月。

13页提供了几个关于规范控制的统计:
Academic    Public     School

  • Access to a current file:         73.8%       55.3%     42.4%
  • Access to a non‐current file: 30.2%        38.1%    23.4%
  • No Access:                              .8%       9.5%      35%

对于上述三种图书馆,分别有2.3%、7.7%和28%的图书馆不进行规范控制,分别有36.2%、17.3%和6.7%的图书馆把规范控制的工作外包。对于这一部分,我很好奇国内的图书馆的情况是怎样的。

80.6%的图书馆因为ILS或者数据库的限制没法有终端用户增加内容,但是除了学校图书馆以外,所有正在计划更换或者升级ILS的图书馆都在考虑这个功能。(2.0在美国已经这么强大了么?)

第三部分是对于数据商调查结果的总结:

16页上有一张图很有趣,在参与调查的数据商中,提供电子书数据的数据商比提供专著数据的数据商还要多(39% vs. 35%)。作者分析原因,认为可能是因为传统的数据商现在同时提供两种数据,但是电子书的销售者只提供电子书的数据,所以造成了这样的统计结果。

 

18页以下有很多关于数据上的统计资料,其中很多都很有意思,值得一读。选择几条如下:

在70家数据提供者里面,有50家生产MARC原编数据,其中又有31家生产完全级或者核心级数据。

第三部分的标题为“冲突的市场”(p. 24)。第32页用下图概括了当前的编目市场的总体状况:

 

 

绿色是传统层,在传统层中的实体创建以及/或者购买以及/或者销售MARC数据。据估计,大概三分之二的北美图书馆都包含在这一层之内:

  • 97% of academic libraries operate primarily within the traditional green tier
  • 63% of public libraries operate primarily within the traditional green tier
  • 65% of school libraries operate primarily within the traditional green tier

蓝色叫做“机会主义层”,这一层的技术标志是开放的数据库以及Z39.50端口。随着图书馆经费紧张,越来越多的图书馆开始使用上述两种技术,但是只有以此作为数据主要来源的剩下三分之一图书馆才属于这一层,同时这一层也包括开放式据库的提供者。

紫色叫做非图书馆层。在这一层,新的技术和MARC之外的格式得到了使用和开发,大规模的数字化项目也是从这一层开始的,一方面这一层和之前的两层存在某种
互动(比如有些书目机构开始从Google
Books这样的服务中收割数据,或者图书馆在OPAC中建立Google服务的链接),但这一层也是对于当前图书馆服务最大的挑战(包括上面提及的两种
系统的冲突)。

作者认为LC属于第一层和第二层之间(因为Z39.50技术和免费的开放网站),OCLC横跨第一层和第三层,而OCLC的成员属于第二层(作者以此解释了前一段OCLC数据版权问题的争端)。

本报告的附录B是一张对于服务、数据提供者很全面的描绘。报告21页详细的描述了这张图,这张图把提供者分为七类:

  • Material Vendors and Aggregators
  • A subset of foreign material vendors
  • Commercial bibliographic utilities (CBUs)
  • System Vendors
  • Academic Publishers
  • Binderies
  • Noncommercial Entities ‐ including consortia, cooperatives,
    national libraries, open database providers, regional networks, etc.
    (this universe is vastly under represented)

这张图很博大精深,我需要更仔细的学习之后才能发表评论。

 

参见:

Metalogue:The Market, the Commons, and the Library of Congress

LC News:Library of Congress Releases Reports on Bibliographic Record Production

Dianne Hillman: Bugs in Amber 【译文:琥珀中的蠹虫 @译言】