国会图书馆北美MARC数据市场报告

2009年1月,LC和R2咨询公司(R2 Consulting LLC)签约,进行调查,研究当前美国和加拿大图书馆中书目数据的生产和流通的情况。今天看到报告出现在了LC网站上。(pdf文件

研究目标(p. 3):

  • What is the overall cataloging capacity in North America?
  • Where does it reside?
  • What are the primary distribution pathways and channels for sharing records?
  • How much redundancy is there?
  • What can we predict about cataloging capacity over the next 5‐10 years?
  • What is the estimated need/demand? How does this compare with capacity?
  • What is the relative importance of authority control to libraries?
  • What is the current reliance by North American Libraries on LC cataloging?

为了这次调查,R2建立了一个Ning社区(有墙),共有800多名用户注册。还分别针对图书馆和MARC系统、流通和数据提供者就行了调查(问卷:图书馆问卷提供者问卷),一共有972家图书馆和70家数据提供者参与了调查。(p. 15,作者提到,像OCLC这样的非营利性的图书馆联盟在数据的生产和传播中也起到很重要的作用,但是这些机构在很大程度上没有参与这次调查)

以下是这次调查的几个主要结论(p. 4——详细内容参考第三、四两章):

  1. Library of Congress cataloging continues to be widely valued: LC的数据仍然是编目市场的基石。根据报告提供的数据,LC的OPAC和Z39.50端口每天要接受50万次查询。
  2. The Library of Congress subsidizes portions of the market: LC制作了很多超出他们自身馆藏范围的数据,这部分数据对于他们没有直接收益。
  3. LC records are significantly underpriced: 1902 law(待查)规定LC只能收取数据流通的费用,但是制作数据的费用由LC来承担。
  4. Cataloging
    backlogs continue to grow in many areas and market segments:
    56%的图书馆报告他们的编目积压在增加,分领域统计,报告增长最多的两个领域是DVD和视频资料以及英文专著。(p. 11)——后文又提到DVD编目实现在美国图书馆面临的最大问题之一。
  5. There
    is adequate cataloging capacity in North America to meet the collective
    need: 即便说很多老的编目员都退休了,但是现在美国和加拿大图书馆中的编目员还是太多了,而不是太少了。
  6. Cooperative cataloging has not realized its full potential: 问题不在生产能力这个环节上,报告认为当前合作编目仍然不够。
  7. The market for cataloging records is conflicted: 图书馆在“社区”价值系统中,他们重视开放、获取和免费,但是数据上处于“商业”价值系统,他们需要可持续增长和利润。
  8. The market provides insufficient incentives to stimulate additional original cataloging
  9. 80%
    of libraries edit records for English‐language monographs in their
    local catalog: 绝大多数修改就是为了满足本地的需求。但是作为对比,只有50%的图书馆上传他们修改后的数据。(p. 7)
  10. 78% of libraries are unaware of any restrictions on MARC record use or redistribution

第二部分是对于图书馆调查结构的总结。12页公布了几个关于套录数据的统计:

  • 最可靠的套录数据源:OCLC、LC、AMICUS。学校图书馆(school library)则主要依靠LC的Z39.50和数据商提供的数据;
  • 最常进行的本地数据修改的内容:Adding pagination(增加页数?);为儿童读物或者非英文材料改变标目或者删除标目;增加内容附注;增加Dewey号以及Sears主题词;修改出版时间;增加或者编辑urls;
  • 对于“没有套录数据,你最长可以等多久”这个问题,回答最多选项的是3-6个月。

13页提供了几个关于规范控制的统计:
Academic    Public     School

  • Access to a current file:         73.8%       55.3%     42.4%
  • Access to a non‐current file: 30.2%        38.1%    23.4%
  • No Access:                              .8%       9.5%      35%

对于上述三种图书馆,分别有2.3%、7.7%和28%的图书馆不进行规范控制,分别有36.2%、17.3%和6.7%的图书馆把规范控制的工作外包。对于这一部分,我很好奇国内的图书馆的情况是怎样的。

80.6%的图书馆因为ILS或者数据库的限制没法有终端用户增加内容,但是除了学校图书馆以外,所有正在计划更换或者升级ILS的图书馆都在考虑这个功能。(2.0在美国已经这么强大了么?)

第三部分是对于数据商调查结果的总结:

16页上有一张图很有趣,在参与调查的数据商中,提供电子书数据的数据商比提供专著数据的数据商还要多(39% vs. 35%)。作者分析原因,认为可能是因为传统的数据商现在同时提供两种数据,但是电子书的销售者只提供电子书的数据,所以造成了这样的统计结果。

 

18页以下有很多关于数据上的统计资料,其中很多都很有意思,值得一读。选择几条如下:

在70家数据提供者里面,有50家生产MARC原编数据,其中又有31家生产完全级或者核心级数据。

第三部分的标题为“冲突的市场”(p. 24)。第32页用下图概括了当前的编目市场的总体状况:

 

 

绿色是传统层,在传统层中的实体创建以及/或者购买以及/或者销售MARC数据。据估计,大概三分之二的北美图书馆都包含在这一层之内:

  • 97% of academic libraries operate primarily within the traditional green tier
  • 63% of public libraries operate primarily within the traditional green tier
  • 65% of school libraries operate primarily within the traditional green tier

蓝色叫做“机会主义层”,这一层的技术标志是开放的数据库以及Z39.50端口。随着图书馆经费紧张,越来越多的图书馆开始使用上述两种技术,但是只有以此作为数据主要来源的剩下三分之一图书馆才属于这一层,同时这一层也包括开放式据库的提供者。

紫色叫做非图书馆层。在这一层,新的技术和MARC之外的格式得到了使用和开发,大规模的数字化项目也是从这一层开始的,一方面这一层和之前的两层存在某种
互动(比如有些书目机构开始从Google
Books这样的服务中收割数据,或者图书馆在OPAC中建立Google服务的链接),但这一层也是对于当前图书馆服务最大的挑战(包括上面提及的两种
系统的冲突)。

作者认为LC属于第一层和第二层之间(因为Z39.50技术和免费的开放网站),OCLC横跨第一层和第三层,而OCLC的成员属于第二层(作者以此解释了前一段OCLC数据版权问题的争端)。

本报告的附录B是一张对于服务、数据提供者很全面的描绘。报告21页详细的描述了这张图,这张图把提供者分为七类:

  • Material Vendors and Aggregators
  • A subset of foreign material vendors
  • Commercial bibliographic utilities (CBUs)
  • System Vendors
  • Academic Publishers
  • Binderies
  • Noncommercial Entities ‐ including consortia, cooperatives,
    national libraries, open database providers, regional networks, etc.
    (this universe is vastly under represented)

这张图很博大精深,我需要更仔细的学习之后才能发表评论。

 

参见:

Metalogue:The Market, the Commons, and the Library of Congress

LC News:Library of Congress Releases Reports on Bibliographic Record Production

Dianne Hillman: Bugs in Amber 【译文:琥珀中的蠹虫 @译言】

重庆参会记(三):会前会后的流水帐

本人生平第一次坐飞机,并且第一次来到祖国西南部,而且第一次出这么远的门……

第一次来到机场,感觉很新鲜。然后上飞机。飞机稍微延迟了一段时间才起飞,起飞的过程果不其然耳朵里不时就会啪啪的想一下。我拼命嚼口香糖,耳朵里不响了,可是耳朵外面也像笼罩了一层棉花,什么声音都像是隔了一层。飞机上的电影很有趣,所以仿佛一下就到了重庆,飞机降落的时候耳朵里又噼里啪啦的响了一会。落地,不提。

————

出飞机照官方攻略坐机场大巴到达上清寺,然后再打车到达会场。在会场门口看到很多上访的人,很赞叹。然后恍然大悟的发现,这次的会场可真是豪华啊。

报到,到了住的房间,发现已经有人了。聊天知道是李超平老师的学生,听口音像是上海人,后来一问发现他有上海的血统……

决定出门逛逛,走出宾馆后门发现了一个硕大的足球场。出门看到地铁(之前以为重庆没地铁的),然后坐上地铁,沿着江边向解放碑方向前进。感受最深的有两点:重庆是一个海拔落差过大的城市,站在江边的地铁站里,我感到无限恐惧(我恐高),当然高低错落的城市也是很有韵味的;另外一点就是重庆很多新的建筑看上去都很老了,不是好与不好,但是我想起了列维-斯特劳斯对于里约热内卢的经典评论——我引用过好多次这句话了。

总之到达了解放碑,之前有个寝室的同学是重庆人,总是向我们吹嘘重庆有多少多少美女,然后解放碑的美女尤其多。或许是受到他的话的影响,这次还挺失望的。

————

然后坐地铁回到住处(我真的觉得地铁是个奇妙的东西,北京的地铁自不必说,在上海坐地铁总是会让我浮想联翩,重庆呢……嗯,无可奉告),路上去了一趟家乐福。到达住处发现表哥已经到了,于是杀向211。

当然那天晚上第一次见到众图林博主,相当激动,计有:(排名不分先后)

人人都认识、人见人爱的表哥

师姐云影

我之前一直很好奇的、长得白白胖胖很龙岩的Sogg

学历史也能很技术、让我很羡慕的饭饱先

口才第一,技术超强的小钟

很漂亮、很贤惠的东道主一子

当然还有仰慕已久的超平老师和金妮,不过估计她们还是不认识我,所以就不提了……

结果就是那天晚上在211一直待到快1点,更远的一个结果就是在重庆我一直处于睡眠不足的状态。

————

第二天开完会去吃火锅,冒充四川人上了一辆车,路上小堵。

幸好火锅是鸳鸯锅,然后我就享受了一次贵宾级的待遇(因为只有我吃中间的白锅……)

超平老师学生好多、杨馆长作为东道主应酬不断、小钟“现场直播”了至少两次

然后和一干人等在嘉陵江(不确定了)走了一圈,莫名的以为自己是在上海。

照了一张很jiong的照片

回去继续在211开会,困(那天晚上说了什么我几乎完全没记住)

————

约好第二天和大部队一起去瓷器口

早上发现下起雨来(我个人实在不喜欢出行的时候下雨)

然后搭顺风车到了瓷器口,人多

如果没有什么人,这里应该是个很有感觉的地方,当然还有一些狠煞风景的事情,比如在江边摆了很多儿童游乐设备……

地很滑,差点摔倒,人多(again)

吃饭,回机场

上飞机

睡觉

下飞机

重庆之行就此结束,本人的重庆参会记也就此结束。谢谢大家的关注

重庆参会记(二):会议篇

是因为官方报道很快就出现了么,这次会议之后几乎没看到什么参会者的博文。

当然对于第一次参加2.0年会的我来说,这次会议是很棒的。明显可以观察到的就是参会的人有那么多(350位,其中包括50多个馆长),Lib2.0的影响力显著增强了。另一方面是,这次会议上计有台湾大学图书馆、宁波数字图书馆、重庆大学图书馆、暨南大学图书馆、厦门大学图书馆、清华大学图书馆、上海交通大学图书馆介绍了他们在图书馆整体构架或者某个局部推行图书馆2.0的案例。给我印象很深的是宁波数字图书馆和上交大的案例介绍,他们并不是从“图书馆2.0”这个概念的立场开始开展服务的,但是在他们的服务中到处体现着2.0的精神,对于我来说,这说明“图书馆2.0”已经越来越从概念/理念转化为实际的工作了。

对于我这个关注2.0的非技术人员来说,这次参会主要关注的是两个问题:新的应用(更好就是新的idea)以及对于用户的研究。

在前者来说,上交大最近很有名的IC平方当然是一个很精彩的案例(我的室友说这是他第三次听这个题目了),重庆大学的整体解决方案很不错(当然我对于他们的某些服务的使用状况更感兴趣的),台大在SNS网站上开发的机器人也很吸引我(当然我不确定国内是不是有其他的案例)。

后一个问题其实是这次会比较缺乏的研究方向,最后“赢在2.0”这个环节才有一个人谈到了这个问题。2.0当然是好,但是它有多好(效果研究)?以及怎样做才能更好(对于用户需求的研究)?这些问题其实都是值得关注的,而且甚至是比2.0的服务本身更加重要的。我个人很期待明年的年会上,已经开发出这些服务的图书馆能够对于这方面的问题进行一些分析和论述。

会前其实听说这次会可能是最后一届了,所以听到终极pk的题目是“2.0往下该怎么走”,我不由自主的笑了一下。其实在抽出观众评审的时候我一直很希望能被选上的,感谢有那么多人放弃了当评审的资格(包括我们大家都认识的一个同学),最后我终于如愿被选上。两位图林人士果然都很厉害,他们在最后一轮的回答也都很精彩,Sogg同学谈到的是合作,小钟同学因为时间更充足一点所以有了更全面的发言,从内容上讲确实是难分伯仲。我最后选择了小钟不仅仅是因为他的口才(虽然他的口才确实厉害),我觉得虽然2.0受到人们越来越多的关注,但是布道仍然是重要的,相对于全国的图书馆事业来说,现在2.0受关注的程度仍然是太小了而不是太多了,我很喜欢他的激情。[补充1:想起小钟说,他相信需求是能被创造出来的,这句话我深有同感。虽然还没来得及重新读一遍他做的ppt。]

当时确实觉得这个pk题目有告别的味道,不过事后听说下一次年会已经有着落了,我也顿时放下心来。

会议的一些照片贴在了豆瓣上。

————

回到北京之后一直觉得很沮丧,理想和现实之间存在着几乎没法跨越的鸿沟。都是图书馆,为什么差别就这么大呢?而且我们还是一个位于首都北京的市级图书馆。

不过其实想介绍几个月之前我们读书会曾经进行的一个草根版“新书推荐”的活动,希望为大家推进2.0提供一些经验和教训(现在看起来以教训为多):

这个活动本意当然是好的,因为鬼知道我们的新书推荐是怎么做的,而且因为一些莫名其妙的程序的问题,新书推荐只能用官方的途径发表(也就是说,在图书馆里的公告栏上——可是,谁会看啊),所以当时我们读书会决定自己做这件事,通过博客、微博客(当时饭否还在)以及豆瓣发布(具体说就是在博客上贴出来,做成豆列和博客相互链接,然后在微博上发布信息),作为一种促进读书的方式。

具体的操作方式是我们的成员每个人定期选择几本,然后写简单的介绍,配上图片和馆藏信息,由一个人汇总之后发出来。

这件事做起来很累,因为要有一个同学把我们每天进帐的新书从系统里导出来,然后贴到一个网络硬盘上(在活动的最后阶段考虑用过Google Docs,但是数据量还蛮大的,而且后来这个活动就无疾而终了),然后这件事是课余性质的东西,没有什么机制鼓励大家长期参与,而且对于我来说,这么做投入产出比实在太小了。所以无疾而终实在也是比较正常的结局。

新书推荐其实是OPAC2.0一个比较常见的功能,以AADL的OPAC为例,它在OPAC的界面上能够显示当前的新书和热门书籍。我不知道这个功能在技术上具体是怎么实现的,但是我想应该不出OPAC接收的读者信息(那本书查询、点击或者借阅得最多)、SNS(前提是OPAC具备这个功能,比如说评论最多或者评级最高等等)这两种功能吧。使用手动的方式来做实在是蛮愚蠢的,而且也没法“正确的”反映读者的需求。

和它相关的一件事就是新书的借阅政策。我们图书馆的借书期限一般是28+14天(根据卡的等级有所不同),6个礼拜之后,新书也成了旧书,借不到某一本新书是我们经常听到的抱怨。所以其实可以考虑修改新书的借阅政策,比如新书只能借一个礼拜(当然这需要后台的技术支持,我们肯定做不到),或者哪怕是新书在某个期限之内只许看,不许借,也是办法。

 

参见:

E线图情:中国图书馆Lib2.09年会在重庆隆重召开

数图笔记:图书馆2.0:向前走,不回头

中南分校图书馆非官方博客:台湾中央大学图书馆宣传片…

超平:Lib2.0 重庆会议杂记

编目精灵:Lib2.09年会集粹

会议ppt:下载页面(速度慢)

会议录音:点击