国会图书馆北美MARC数据市场报告

2009年1月,LC和R2咨询公司(R2 Consulting LLC)签约,进行调查,研究当前美国和加拿大图书馆中书目数据的生产和流通的情况。今天看到报告出现在了LC网站上。(pdf文件

研究目标(p. 3):

  • What is the overall cataloging capacity in North America?
  • Where does it reside?
  • What are the primary distribution pathways and channels for sharing records?
  • How much redundancy is there?
  • What can we predict about cataloging capacity over the next 5‐10 years?
  • What is the estimated need/demand? How does this compare with capacity?
  • What is the relative importance of authority control to libraries?
  • What is the current reliance by North American Libraries on LC cataloging?

为了这次调查,R2建立了一个Ning社区(有墙),共有800多名用户注册。还分别针对图书馆和MARC系统、流通和数据提供者就行了调查(问卷:图书馆问卷提供者问卷),一共有972家图书馆和70家数据提供者参与了调查。(p. 15,作者提到,像OCLC这样的非营利性的图书馆联盟在数据的生产和传播中也起到很重要的作用,但是这些机构在很大程度上没有参与这次调查)

以下是这次调查的几个主要结论(p. 4——详细内容参考第三、四两章):

  1. Library of Congress cataloging continues to be widely valued: LC的数据仍然是编目市场的基石。根据报告提供的数据,LC的OPAC和Z39.50端口每天要接受50万次查询。
  2. The Library of Congress subsidizes portions of the market: LC制作了很多超出他们自身馆藏范围的数据,这部分数据对于他们没有直接收益。
  3. LC records are significantly underpriced: 1902 law(待查)规定LC只能收取数据流通的费用,但是制作数据的费用由LC来承担。
  4. Cataloging
    backlogs continue to grow in many areas and market segments:
    56%的图书馆报告他们的编目积压在增加,分领域统计,报告增长最多的两个领域是DVD和视频资料以及英文专著。(p. 11)——后文又提到DVD编目实现在美国图书馆面临的最大问题之一。
  5. There
    is adequate cataloging capacity in North America to meet the collective
    need: 即便说很多老的编目员都退休了,但是现在美国和加拿大图书馆中的编目员还是太多了,而不是太少了。
  6. Cooperative cataloging has not realized its full potential: 问题不在生产能力这个环节上,报告认为当前合作编目仍然不够。
  7. The market for cataloging records is conflicted: 图书馆在“社区”价值系统中,他们重视开放、获取和免费,但是数据上处于“商业”价值系统,他们需要可持续增长和利润。
  8. The market provides insufficient incentives to stimulate additional original cataloging
  9. 80%
    of libraries edit records for English‐language monographs in their
    local catalog: 绝大多数修改就是为了满足本地的需求。但是作为对比,只有50%的图书馆上传他们修改后的数据。(p. 7)
  10. 78% of libraries are unaware of any restrictions on MARC record use or redistribution

第二部分是对于图书馆调查结构的总结。12页公布了几个关于套录数据的统计:

  • 最可靠的套录数据源:OCLC、LC、AMICUS。学校图书馆(school library)则主要依靠LC的Z39.50和数据商提供的数据;
  • 最常进行的本地数据修改的内容:Adding pagination(增加页数?);为儿童读物或者非英文材料改变标目或者删除标目;增加内容附注;增加Dewey号以及Sears主题词;修改出版时间;增加或者编辑urls;
  • 对于“没有套录数据,你最长可以等多久”这个问题,回答最多选项的是3-6个月。

13页提供了几个关于规范控制的统计:
Academic    Public     School

  • Access to a current file:         73.8%       55.3%     42.4%
  • Access to a non‐current file: 30.2%        38.1%    23.4%
  • No Access:                              .8%       9.5%      35%

对于上述三种图书馆,分别有2.3%、7.7%和28%的图书馆不进行规范控制,分别有36.2%、17.3%和6.7%的图书馆把规范控制的工作外包。对于这一部分,我很好奇国内的图书馆的情况是怎样的。

80.6%的图书馆因为ILS或者数据库的限制没法有终端用户增加内容,但是除了学校图书馆以外,所有正在计划更换或者升级ILS的图书馆都在考虑这个功能。(2.0在美国已经这么强大了么?)

第三部分是对于数据商调查结果的总结:

16页上有一张图很有趣,在参与调查的数据商中,提供电子书数据的数据商比提供专著数据的数据商还要多(39% vs. 35%)。作者分析原因,认为可能是因为传统的数据商现在同时提供两种数据,但是电子书的销售者只提供电子书的数据,所以造成了这样的统计结果。

 

18页以下有很多关于数据上的统计资料,其中很多都很有意思,值得一读。选择几条如下:

在70家数据提供者里面,有50家生产MARC原编数据,其中又有31家生产完全级或者核心级数据。

第三部分的标题为“冲突的市场”(p. 24)。第32页用下图概括了当前的编目市场的总体状况:

 

 

绿色是传统层,在传统层中的实体创建以及/或者购买以及/或者销售MARC数据。据估计,大概三分之二的北美图书馆都包含在这一层之内:

  • 97% of academic libraries operate primarily within the traditional green tier
  • 63% of public libraries operate primarily within the traditional green tier
  • 65% of school libraries operate primarily within the traditional green tier

蓝色叫做“机会主义层”,这一层的技术标志是开放的数据库以及Z39.50端口。随着图书馆经费紧张,越来越多的图书馆开始使用上述两种技术,但是只有以此作为数据主要来源的剩下三分之一图书馆才属于这一层,同时这一层也包括开放式据库的提供者。

紫色叫做非图书馆层。在这一层,新的技术和MARC之外的格式得到了使用和开发,大规模的数字化项目也是从这一层开始的,一方面这一层和之前的两层存在某种
互动(比如有些书目机构开始从Google
Books这样的服务中收割数据,或者图书馆在OPAC中建立Google服务的链接),但这一层也是对于当前图书馆服务最大的挑战(包括上面提及的两种
系统的冲突)。

作者认为LC属于第一层和第二层之间(因为Z39.50技术和免费的开放网站),OCLC横跨第一层和第三层,而OCLC的成员属于第二层(作者以此解释了前一段OCLC数据版权问题的争端)。

本报告的附录B是一张对于服务、数据提供者很全面的描绘。报告21页详细的描述了这张图,这张图把提供者分为七类:

  • Material Vendors and Aggregators
  • A subset of foreign material vendors
  • Commercial bibliographic utilities (CBUs)
  • System Vendors
  • Academic Publishers
  • Binderies
  • Noncommercial Entities ‐ including consortia, cooperatives,
    national libraries, open database providers, regional networks, etc.
    (this universe is vastly under represented)

这张图很博大精深,我需要更仔细的学习之后才能发表评论。

 

参见:

Metalogue:The Market, the Commons, and the Library of Congress

LC News:Library of Congress Releases Reports on Bibliographic Record Production

Dianne Hillman: Bugs in Amber 【译文:琥珀中的蠹虫 @译言】