OhioLink-OCLC馆藏与流通分析:报告及ppt

2011成果报告:http://www.oclc.org/research/publications/library/2011/2011-06.pdf (pdf文件,37页)

目的:为了更好的理解OhioLINK(Ohio Library and Information Network,俄亥俄州88所大学图书馆以及俄亥俄州立图书馆的联盟)的图书流通和馆藏的情况、尽可能的减少重复馆藏并且增加藏书的多样性。

方法:收集了OhioLINK图书馆几乎所有图书和手稿的馆藏和流通情况,时间范围是2007年春-2008年春的一年时间。因为同时采用了不同数据源的数据(Worldcat基于载体表现的馆藏信息以及图书馆OPAC基于单件的流通信息),所以采用了OCLC的作品集算法可以在不同的层次上进行分析。

本报告的另一个主要内容是对数据的使用提供了简要的介绍。报告最后的词汇表对于理解一些相关的术语也是特别有用的。相关数据可以免费下载(各机构总体数据),本报告的作者鼓励其他机构使用其他的方法分析相关的数据,并且和其他机构的数据进行比较。

————————

一个基本的分析可以参见这个研究活动页面上提供的一个ppt的链接(35页)——当然,本页上还有其他各种有用的链接。这个ppt是Akron大学(也是OhioLINK的成员馆)的Julie Gammon和OCLC的Ed O’Neill在2010年10月的一个研讨会上的一次报告。

#8 提供了一个总体的数据。OhioLINK的单件总数是2900万,在07-08年的范围内被借出了210万次;而载体表现层的两个数据分别是677万/104万。

#17 尤其提到了四个藏书的指标:流通率(总体流通数量/藏书综述)、覆盖率(某个学校的藏书载体表现的数量/OhioLINK载体表现总数量)、完整度(OhioLINK的全部借阅能够在某个学校得到多大程度的满足)以及读者等级(从0:幼儿-1:学术的区间)

#22 是本研究对于80/20的验证。但是本研究的数据表明,6.5的载体表现(45万个/677万)完成了80%的流通数量。这个密集程度比传统的观点要大很多。

#24 分学科资源的流通率:艺术休闲类和医学类的最高,商业经济和法律类的最低。很有趣的是,在下一张幻灯片上,法律类图书的重复率也是最高的。

#27-29 其他语种的馆藏:出乎我的意料,德语和法语是最高的(都超过了20%)。中文图书只有4.3%。但是更让我惊讶的是#29上的其他语种的馆藏占总体馆藏数量的比例,这个数字从1920年以来呈现总体的下降趋势,从历史最高的18%下降到现在的5%。我很好奇这是为神马?

#35是一些总体的结论:

  • 非英语馆藏的使用率有限(我想这也是我们国家的图书馆的问题吧)
  • 不同主题、机构……的流通率差别很大
  • 馆藏的重复率很高
  • 下一步的措施:进一步的分析;哪些信息是有用的,哪些是没用的;我们有没有错误的地方;我们是不是漏掉了什么;数据的共享

P.S. O’Neill在Slideshare上的另一个ppt和本ppt的内容基本相当。

Worldcat数据库的质量:读OCLC报告笔记一则

报告链接:http://www.oclc.org/us/en/reports/worldcatquality/214660usb_WorldCat_Quality.pdf

OCLC的Worldcat质量项目(Worldcat quality project)尤其关注重复记录管理的问题。2008年OCLC的报告(联机目录:读者和图书馆员想要什么,做个迟来的广告)对于Worldcat数据满意度的统计,在人们反映的问题中,重复数据和最少内容的记录(minimal record)是普遍存在的问题。

Worldcat数据库的快速增长加剧了数据质量的问题。问题首先是各国国家图书馆的导入数据,新的元数据超过了之前自动处理重复数据的工具的能力。但是这也让OCLC通过新进入数据库的多语种的数据,获得了进行多语种服务的机会(1998年,Worldcat数据库里的英文内容占64%;2010年,这个数字变成了43%)。其次是OCLC自2008年以来大量导入厂商数据(目前占书目数据库的1.59%),这一部分的数据内容比较少,而且会造成匹配、合并的问题。

OCLC从1991年就开始使用重复检测和分解(Duplicate Detection and Resolution, DDR)软件来处理重复记录。2010年9月,DDR对Worldcat数据库完成了一次完整的检测,删除了510万条重复记录。(从我个人的感觉来说,现在Worldcat的冗余数据确实比大概一年前要少了。)

2003年开始,OCLC开始允许“并列记录”(parallel records,即相同资源使用不同编目语种进行编目的记录。之前作为重复记录处理)。而重印的资源的记录,根据AACR2,要作为单独的记录来处理。但是对于终端用户来说,这种单独的展示是让人困惑的甚至于是失败的。

这还造成了另外的问题。OCLC号连接了元数据和资源的地点,也是Worldcat数据库和外部数据库的连接机制。(当我们从Worldcat数据库的资源页面导向外部的OPAC的时候,搜索项目就是OCLC号,这确实是很有用的一种标识符。突然想到本人很早之前翻译的一篇文章:OCLC控制号作为载体表现标识符)但是随着并列记录和重印(尤其是数字化的重印)的增加,元数据和馆藏信息越来越分散的分布在不同的记录下,这造成了多方面的问题,无论对于终端用户的选择困难还是图书馆之间的资源共享。

继而OCLC提出了一种新的通用标识符的概念:“全球图书馆载体表现标识符”(Global Library Manifestation Identifier, GLIMIR),这是OCLC自2009年开始的项目,用以解决上述问题。新的标识符希望能够克服编目语种、资源格式或者其他方面的问题,实现记录更好的聚合。这个项目目前即将实施,OCLC计划将在12财年度的上半年对Worldcat进行“GLIMIR化”的处理。正文第14页以下也展示了Worlcat在这方面正在进行的其他工作。对我而言比较重要的一个是去除无效的OPAC链接,以我的经验,目前这部分的体验已经足够的不好。

————————

对于没用过Connexion(以及新的Worldcat Local)的人来说,我一直很好奇Worldcat这么庞大的数据库在技术上的一些细节。在这个意义上我觉得这篇报告很有趣。这次看到GLIMIR感觉完全没有印象,Google了一下发现蛮多人都讨论了这个东西。

OCLC世界图书馆地图服务

这几天在GR上看到有人分享的OCLC世界地图(World Map)的服务。在它的首页上看到这个服务是今年1月发布的。这个服务用可视化的方式呈现各国图书馆的基本数据,包括:

 

  • 各国出版物的语种;
  • 各国图书馆(包括国家图书馆、大学图书馆、公共图书馆和专业图书馆)的馆藏数量;
  • 各国各类型图书馆的数量;
  • 各国各类型图书馆中图书馆员的数量;
  • 各国各类型图书馆的用户的数量;
  • 各国各类型图书馆的经费;
  • 各国出版社、博物馆和档案馆的数量。

 

这个服务采用了Google Map作为框架。基本的信息到国家一层,美国的数据具体到州。就是很直观而且有趣的一个服务。(不过不知道为什么,我很想看中国的数据来着,不过我打不开“亚太地区”这一部分的数据)

————

我喜欢Google的一个巨大的原因就是因为它有太多太多的可能甚至是微不足道的创意(比如著名的Doodle,最近申请了专利)。我喜欢OCLC的原因也大体如是,虽然在一些领域我对它很不满,但是它根据各种数据开发的工具真的让人不得不赞叹。

————

参见:

Nalsi的西文编目笔记II:OCLC Worldcat Genre

OCLC会员报告笔记:图书馆认知报告2010(完整版)

本月,OCLC发表了它的第五份会员报告:《图书馆认知报告2010:语境与社区》(Perceptions of Libraries, 2010: Context and Community),前几天本博客曾经发过其中两个章节的读后感:

 

OCLC近日发表【注:提前发表了正式报告的两章,其余的内容在ALA仲冬会议上发表】了《图书馆认知报告,2010》(Perceptions of Libraries, 2010: Context and Community),这份报告的前身,就是2005年发表的那份鼎鼎大名的《图书馆和信息资源认知》(Perceptions of Libraries and Information Resources)的报告。后者被大量讨论“图书馆2.0”的文献引述,尤其有名的就是报告中提及的1%和84%这两个数字。(比如,国图图研参考的总结

当然本人因为入行时间过短,所以一直没有好好读过那份报告,不过2010年的图书馆认知报告还是很吸引我的,不仅是在知识上,原因也包括本人近期对于未来职业发展的一些焦虑。如果说2005年的报告给图书馆人敲响了网络时代的警钟,那么2010年的报告可能要反过来告诉我们,图书馆在经济危机中正在扮演越来越重要的作用——虽然,未来并不乐观(算是这份报告的言外之意)。

最近断断续续读完了这份报告(pdf文件,59页,下载),下面是本人所做的笔记,和可能的一些感想。

————
目次:
  • 远景分析:互联网时代(p. 2-7)
  • 语境分析(p. 10-49)
  • 社区分析(p. 50-93)
  • 远景分析:展望未来(p. 94-100)
  • 附录
————
远景分析互联网时代:
OCLC会员报告侧重分析民众的认知而非行为本身,为图书馆提供一个未来的框架。这份报告调查了美国民众对于图书馆的使用情况和看法(虽然调查中也包括一部分英国民众的数据,不过在最后的报告中只分析了其中美国的部分)。
美国图书馆卡拥有率:2005:75%;2007:63%;2010:68%。【虽然我觉得这组数字的罗列可能不如单个数字本身有意义】
语境分析:
这一部分分析了2005年以来的互联网技术发展和近年来经济衰退这两个大趋势对美国民众对图书馆的使用和认知的影响。
在技术方面:
  • 美国人使用互联网的比例继续增加(2005: 69% – 2010: 77%,以下如无说明,所有的数字比较都是OCLC2005年报告和这份报告中数字的比较)
  • Google继续是美国人首选的搜索引擎,但更重要的可能是Google不断推出的其他服务。
  • 社交网络在2005年刚刚出现,而它在这5年间迅速发展(在2010年,Facebook已经超过Google,成为世界访问量最大的网站),而现在美国已经有2/3的人在使用社交网络服务(而且各年龄层之间的差别并不大)。
  • 这5年间另一个巨大的变化是智能手机(2%-23%),随着智能手机等各种移动互联网终端的流行,无线互联网接入愈发重要,而且人们也渐渐熟悉了app这个概念。
  • 报告中提及的最后一种技术是电子书,报告引用Amazon在2010年7月的数据,Amazon卖出的电子书数量超过了精装本的图书。【而根据Amazon2010年第四季度的数据,卖出的电子书已经超过了卖出平装本图书的数量。】而现在,根据ALA的数据,有55%的美国公共图书馆提供电子书的借阅服务。【而根据OverDrive的数据统计,2010年图书馆借阅电子书的数量比起2009年增加了200%
在这样一个技术图景下,图书馆正在扮演着一个越来越重要的向普通民众提供新技术的角色。11%的美国大型公共图书馆使用Facebook来宣传。而很大一部分图书馆(大学图书馆:44%、公共图书馆:34%)开始提供移动服务(包括移动版的图书馆主页或者目录)。免费的互联网接入一直是美国公共图书馆提供的一种相当重要的服务,平均每座图书馆提供连接互联网的电脑数量从2005年的11台提高到2009年的14台。而有67%的公共图书馆成为该社区中唯一提供免费互联网接入的机构。
2010年,影响图书馆发展的另一个重要的因素就是这次严重的经济衰退。从最消极的角度讲,它对美国的图书馆产生了最直接的威胁,2009-2010年,56%的美国公共图书馆的预算或保持不变或有所削减【比我想象的情况要好】。但是反过来,它也让图书馆在民众那里变得更加重要。
经济危机对美国人产生了剧烈的影响。2010年12月美国官方公布的失业率为9.4%,而根据这份报告中的数字,20%的美国人和三分之一的美国家庭在经济危急中受到了消极的影响(失业或者工作时间缩短)。受到经济危机影响的美国人对未来的担心远远超过未受影响的人,而年龄组的数据也表明各个年龄段的人对未来有各自不同的担心。
在和这份报告内容有关的方面,经济危机对美国人主要产生了两方面的影响。首先是受到经济影响的美国人更多的使用网络,相较于没有受到经济影响的美国人,他们尤其会更多的在网上从事和就业有关的活动。另一方面,就像在报告中特别强调的,经济危机影响到了美国人的生活方式,他们开始节省在文化上的消费,转而更多的使用图书馆。各种数据都表明,受到影响的美国人比起没有受到影响的美国人更多的使用图书馆的各种服务,不管是持有图书证的比例(81% vs. 68%);每周访问一次图书馆的人数比例(18% vs. 12%);以及使用图书馆各种服务的比例(报告第24页有一张很华丽的图说明了这件事)。
在经济危机的大背景下,图书馆对美国人的生活裨益良多。37%的受影响者和16%的未受影响者增加了其对图书馆的使用。76%的受影响者减少了购买书、CD和DVD的花费,而75%的受影响者开始在图书馆更多的借书、CD和DVD——这表明,图书馆有效地填补了经济危机所造成的差别。从技术中介的角度,图书馆提供的免费互联网接入和电脑成为图书馆提供的一种重要服务。在就业问题上,图书馆提供了大量的免费的就业活动(就业信息、网络接入以提交申请、培训),有1/3的被影响者认为图书馆在他们的就业过程中扮演了重要的角色。而除了新技术和就业之外,受到经济影响的人也参加了图书馆组织的其他活动,尤其是社区活动以及少儿活动,以及阅读杂志等等。
报告的下一部分讨论了美国人如何使用网络资源和图书馆。首先,电子邮件和搜索引擎服务几乎达到完全饱和的状态(使用率分别是94%和92%)。如上文所说,社交网站得到迅速发展,有66%的美国人开始使用社会网站(在本报告中包括社交网络和社会媒体两种服务),而且各个年龄段的使用情况在逐渐接近,尤其是受到经济波及的美国人尤其会使用社交网络(80%的受影响者使用社交网络)。
在2005年的报告中,在图书馆社区中最被关注的一个数字就是,当时有82%的美国人使用搜索引擎开始他们的信息搜索活动,而只有1%的人使用图书馆的网站。而在2010年,有84的人把搜索引擎作为信息研究的起点,没有一个人从图书馆网站开始他们的搜索活动(同时,有3%的人选择了Wikipedia,这个选项没有出现在2005年的调查中)。但是,虽然没有一个人把图书馆网站作为搜索的起点,仍然有33%的受调查者说他们会使用图书馆网站,这个数字和2005年相比基本保持平衡(31%)。
同时,这份报告还询问了使用者在搜索不同类型资料的时候,对搜索引擎、图书馆和网络图书馆(online library,我不太清楚该怎么理解这个东西)的偏好程度,对持有正面印象人数的比例,互联网除了在“教育资料”一项略微低于图书馆之外,在其他的5项(分别是养生、休闲、自助、就业和金融)的调查中都是最高的。而民众对网络图书馆的印象在所有的资源中都是最差的。而受到经济影响的美国人比起未受影响的人群,对于搜索引擎和图书馆的印象要更好。
另外一种被美国人广为使用的资源是“向专家提问”网站(文中举的例子是Yahoo!Ask),使用率从2005年的15%上升到2010年的43%。但相对的,民众并没有更喜欢使用“向图书馆员提问”的服务,尽管现在估计有58%的图书馆提供这种服务(就是参考咨询服务?),可是它的使用率一直保持在低位(5% vs. 7%)。除此之外,Wikipedia、Skype和Twitter也是美国人很喜欢使用的服务。
对于图书馆的各种资源,幸运或者不幸,美国人在图书馆中最常进行的活动还是借书、读书。除此之外是借视频资料和使用互联网、计算机。美国人对图书馆的使用在这5年间基本都是增加的,除了在图书馆进行研究的活动(使用参考书、获得研究的帮助)。
诡吊的是,虽然人们更多的使用各种资源,但是他们对于几乎所有资源的评价都降低了。互联网仍然是美国人评价最高的资源,但是对互联网有正面评价的人数下降了10个半分点(86%-74%),而图书馆仍然排在第二(80%-66%),虽然和书店基本相差无几。网络书店和网络图书馆的评价都更低。报告认为,经济环境以及更多的资源的选择可能是人们对资源评价降低的原因。
报告讨论了图书馆作为整体的品牌。如上文所说,这个品牌最重要的因素还是书,在2005年的调查中,有69%的人说他们一想到图书馆就会想到书,而到了2010年,这个回答的比例是75%。而在2005年的调查中,绝大多数使用者都不知道他们的图书馆提供电子资源,而在本次调查中情况依旧,仍然有超过一半的人不知道图书馆提供各种类型的电子资源。大学图书馆和公共图书馆都在购买越来越多的电子资源,但是这些资源因为各种原因并没有被图书馆使用者所了解。
总体而言,被调查者认为搜索引擎相比图书馆而言更方便、更快捷、更可靠、更易用;而图书馆更值得信任而且更准确。但是,绝大多数美国人认为图书馆获取的信息和搜索引擎获取的信息是大体一致的。
报告表明图书馆员的价值被美国人所重视,更多的人都认为图书馆员为研究过程增加了价值(83% vs. 76%)。而且在这次调查中,人们对于图书馆员的总体满意度也有了相当大的增加(60% vs. 48%);相对而言,人们对于搜索引擎的满意度有所下降。但是这并没有让更多的人使用图书馆的网站,除了上述“没有人从图书馆网站开始信息搜索,以及33%的美国人使用图书馆网站”之外,14%的用户在从互联网搜索之后以进入图书馆网站结束搜索过程,而其中80%的人认为在上面找到了有用的信息。总体而言,图书馆网站在信息搜索的过程中处于绝对边缘化的位置。
图书馆的价值在经济危机中显得更加重要,31%的人认为在今天,图书馆对其社区的价值增加了。对于个人和家庭,认为图书馆价值增加的人的比例分别是21%和19%。但是在受到经济影响的人里面这三个数字都超过了35%。但与此同时,也有20%的人认为图书馆对他们的价值下降了。而对于图书馆所发挥的最重要的功能,51%的美国人认为书和音像是对他们自己最重要的功能,32%的人选择了获得免费的信息。而同样最多的人(30%)认为书和音像也是图书馆对社区最重要的功能。这个问题在各年龄组的结论也基本一致,除了14-17岁的年龄组,小朋友们选择的图书馆对自己和对社区最重要的功能分别是:阅读场所,和免费的互联网。这告诉我们,面对技术原生代,图书馆可能需要不同的服务定位和策略。
————
文章的第二部分讨论了各个年龄组的调查结果,包括大学生、青少年(14-24岁,分成了teens和young adults两个subgroup),X世代(25-45岁),婴儿潮(46-64岁),以及老年人(65岁以上)。这一部分的总体讨论可以参见90页以下的内容。
————
在最后的部分,报告的作者提出了他的一些想法,一些有比较具体的想法,一些还停留在问题的阶段:
1、68%的图书馆使用者里,只有不到一半的人(33%)使用图书馆网站,另外没有人从图书馆网站开始信息搜索过程,它只是信息搜索过程中接近结尾的一步。那么我们需要思考新的策略和新的方法。
2、图书馆当前的品牌=免费的图书和音像资源。这个品牌在经济危机中是有竞争力的。但是我们也应该增加读者的其他体验,宣传我们其他的服务。
3、我们应当提供电子书的服务,为未来做准备。
4、在这次调查中,只有17%的被调查曾经看到图书馆的广告或者宣传材料【大学生只有11%】,而且这些材料出现最多的地方正是图书馆内。显然这不是正确的广告策略。另外,报告的作者特别提及了对电子书和增加开放时间进行广告宣传。
5、图书馆开放时间过短,是这次调查中被调查者表达的一个普遍不满。作者认为这是我们推广图书馆“网络存在”的一个好机会(虽然“网络图书馆”在这次调查中并没有得到读者的好评)。但是,这需要时间。
6、图书馆需要培养民众的信息素质。
7、把我们的价值(将近三分之一的美国人认为图书馆的价值增加了)营销出去,鼓励读者、学生和我们的同事在各种媒体上讲述他们自己的图书馆故事。争取我们的经费。
8、如何经营图书馆的“网络存在”——比如社交网络服务的站点。
9、与时俱进,贴近读者新出现的需求,采用新方法,提供新服务(比如在经济危机期间和就业有关的相关服务)。
————
我的一些想法:
忘了听谁说的了(当然前几天精灵师在博客里也说过),这个报告中有大量华丽的统计图表,即便数据本身可能没那么有意义,不过至少看上去就让人觉得是“科学的”。不过话说回来,我确实觉得一些数据还挺可疑的,即便数据都是准确的,我也仿佛觉得这份报告对一些数据的解释是有问题的。比如:在很多地方,报告只提到有多少人觉得图书馆的价值提高了或者类似的正面看法,但是并没有提及反面的看法(至少,报告对有20%的美国人认为图书馆价值降低了这件事蛮轻描淡写的;另外对于图书馆员总体满意度从48%提高到60%,我也想当怀疑)。所以其实在我的理解中,图书馆的未来仍然没有那么美好。
但是图书馆还活着,而且在经济危机中找到了新的价值(免费),这是很值得高兴的事情。不过经济危机对图书馆绝对是一个负面的存在,毕竟图书馆更大的威胁就是没钱,而不是没人用(因为美国图书馆的使用者无论如何都是不虞匮乏的,至少和我们相比)。
另一个让我印象深刻的地方就是,5年过去了,即便总体科技发达如美国的地方,图书馆仍然很难摆脱“书”的印象,人们一想到“library”还是会想到图书馆(在中文里,这是注定的)。其实这个事实让我很尴尬,我也暂时不知道该怎么评价这件事。
最后但并非最不重要的,这份报告不仅仅扫描了人们对于图书馆的认知,它扫描的是美国人总体的信息生态环境。对我来说,这暗含了一个很重要的观点:图书馆是信息生态环境中的一环。虽然我们无力和搜索引擎竞争,但是现实就是,我们和搜索引擎和可能,Facebook站在同一片战场上。我们需要利用它们,但我们绝不能被它们吃掉(虽然或许,图书馆被什么东西吃掉是不可能避免的命运)。
————
参考资料:
OCLC2007年会员报告:《网络世界的共享、隐私和信任》【官方中文版发表在《数字图书馆论坛》2008年第3期:http://goo.gl/0dEiX 注册可下载】
OCLC报告:《联机目录:读者和图书馆员想要什么》【非官方版@图林中文译站】