国会图书馆2010财年度报告:笔记一则

报告(PDF文件,88页)记录的是国会图书馆2010年财政年度(2009.9.30-2010.9.30)的基本情况。内容很丰富,粗读过一遍,让我对国会图书馆有了更详细的了解。比如,当然我知道它们对国会的服务可能是它们最主要的职责,但是我没想到他们也有丰富的公共服务(尤其在第三章)。不管是国家图书节这种全国性的活动,到具体而微的参观、讲座、少儿阅读推广甚至是音乐会等服务。

这篇报告的封面就是一个人拿着一台ipad(似乎在用国会图书馆的app?),昭示着这个图书馆技术最大的时代。正文也有相当篇幅提到新技术在LC的实践,让人印象深刻。比如它们对Twitter内容的保存,还有在很久之前曾经在VOA上听到的,它们对于美国民歌的收集,这些都让我觉得LC虽然是一座“国家图书馆”,但是它们是很酷的。

笔记当然就只覆盖了这个报告里的很少的事实,主要是我觉得有趣的内容,比如一些具体的事实以及编目和各种数字化项目的相关内容。报告中有大量关于法律服务和版权的内容,虽然我觉得有趣,但现在完全读不下去。当然,这个报告的附录也有丰富的数据,值得仔细的阅读。

————————————

目次表:

  • 服务国会
  • 收藏、保存并且提供知识
  • 推动创新
  • 纪念成就
  • 附录

p. x 几个数字:

  • 馆藏1亿4千700万件,其中2200万册的编目图书(用LC分类法),还有1亿1300万没有分类的馆藏,包括手稿、音视频资料、缩微胶卷、乐谱等。
  • 3579名正式员工。
  • 2010年的财政预算是6亿8400万美元。

p. xi 使命:图书馆的使命是支持国会实现其宪法的职责,并且为了美国人民的利益推进知识和创新。

p. 11 有6个海外办公室:里约热内卢、开罗、新德里、雅加达、内罗毕和伊斯兰堡。其主要的任务是选购、编目和保存资源。(我们图书馆买很多印度出版的书,经常就能看到LC印办公室的编目记录)

p. 16 国家数字报纸项目(National Digital Newspaper Program, NDNP),对公共域内的美国历史报纸进行数字化并且免费向公众开放。

p. 17 老兵历史项目 (Veteran History Project),口述史项目,2000年开展。现在已经收集超过70000人的叙述。

p. 18 国家数字信息基础结构和保存项目(National Digital Information Infrastructure and Preservation Program),保存濒危的具有文化和历史价值的数字内容。主要工作包括:各州记录的数字化工作、和商业伙伴开展合作、制定标准以及网络存档。最有名的项目就是国会图书馆着手对Twitter上的内容进行保存。

p. 21 新媒体方面的服务:

  • 网站访问量超过了7700万次;
  • RSS和邮件列表的信息推送;
  • 在社交网络和媒体共享的平台上发布内容,比如Twitter、Flickr、Facebook、iTunes U和YouTube。
  • 今年8月2日推出了iOS平台的app,可以在图书馆进行虚拟的导游。

p. 25 Read.gov,一个为儿童以及教师设计的电子书阅读网站。2009年9月推出。

p. 34 第10届国家图书节在2010年9月25日举行,当天吸引了超过15万人前来参加。

——————————

via: ResourceShelf: Library of Congress releases annual report

LC年度报告页面:http://www.loc.gov/about/reports/annualreports/index.html

OhioLink-OCLC馆藏与流通分析:报告及ppt

2011成果报告:http://www.oclc.org/research/publications/library/2011/2011-06.pdf (pdf文件,37页)

目的:为了更好的理解OhioLINK(Ohio Library and Information Network,俄亥俄州88所大学图书馆以及俄亥俄州立图书馆的联盟)的图书流通和馆藏的情况、尽可能的减少重复馆藏并且增加藏书的多样性。

方法:收集了OhioLINK图书馆几乎所有图书和手稿的馆藏和流通情况,时间范围是2007年春-2008年春的一年时间。因为同时采用了不同数据源的数据(Worldcat基于载体表现的馆藏信息以及图书馆OPAC基于单件的流通信息),所以采用了OCLC的作品集算法可以在不同的层次上进行分析。

本报告的另一个主要内容是对数据的使用提供了简要的介绍。报告最后的词汇表对于理解一些相关的术语也是特别有用的。相关数据可以免费下载(各机构总体数据),本报告的作者鼓励其他机构使用其他的方法分析相关的数据,并且和其他机构的数据进行比较。

————————

一个基本的分析可以参见这个研究活动页面上提供的一个ppt的链接(35页)——当然,本页上还有其他各种有用的链接。这个ppt是Akron大学(也是OhioLINK的成员馆)的Julie Gammon和OCLC的Ed O’Neill在2010年10月的一个研讨会上的一次报告。

#8 提供了一个总体的数据。OhioLINK的单件总数是2900万,在07-08年的范围内被借出了210万次;而载体表现层的两个数据分别是677万/104万。

#17 尤其提到了四个藏书的指标:流通率(总体流通数量/藏书综述)、覆盖率(某个学校的藏书载体表现的数量/OhioLINK载体表现总数量)、完整度(OhioLINK的全部借阅能够在某个学校得到多大程度的满足)以及读者等级(从0:幼儿-1:学术的区间)

#22 是本研究对于80/20的验证。但是本研究的数据表明,6.5的载体表现(45万个/677万)完成了80%的流通数量。这个密集程度比传统的观点要大很多。

#24 分学科资源的流通率:艺术休闲类和医学类的最高,商业经济和法律类的最低。很有趣的是,在下一张幻灯片上,法律类图书的重复率也是最高的。

#27-29 其他语种的馆藏:出乎我的意料,德语和法语是最高的(都超过了20%)。中文图书只有4.3%。但是更让我惊讶的是#29上的其他语种的馆藏占总体馆藏数量的比例,这个数字从1920年以来呈现总体的下降趋势,从历史最高的18%下降到现在的5%。我很好奇这是为神马?

#35是一些总体的结论:

  • 非英语馆藏的使用率有限(我想这也是我们国家的图书馆的问题吧)
  • 不同主题、机构……的流通率差别很大
  • 馆藏的重复率很高
  • 下一步的措施:进一步的分析;哪些信息是有用的,哪些是没用的;我们有没有错误的地方;我们是不是漏掉了什么;数据的共享

P.S. O’Neill在Slideshare上的另一个ppt和本ppt的内容基本相当。

Worldcat数据库的质量:读OCLC报告笔记一则

报告链接:http://www.oclc.org/us/en/reports/worldcatquality/214660usb_WorldCat_Quality.pdf

OCLC的Worldcat质量项目(Worldcat quality project)尤其关注重复记录管理的问题。2008年OCLC的报告(联机目录:读者和图书馆员想要什么,做个迟来的广告)对于Worldcat数据满意度的统计,在人们反映的问题中,重复数据和最少内容的记录(minimal record)是普遍存在的问题。

Worldcat数据库的快速增长加剧了数据质量的问题。问题首先是各国国家图书馆的导入数据,新的元数据超过了之前自动处理重复数据的工具的能力。但是这也让OCLC通过新进入数据库的多语种的数据,获得了进行多语种服务的机会(1998年,Worldcat数据库里的英文内容占64%;2010年,这个数字变成了43%)。其次是OCLC自2008年以来大量导入厂商数据(目前占书目数据库的1.59%),这一部分的数据内容比较少,而且会造成匹配、合并的问题。

OCLC从1991年就开始使用重复检测和分解(Duplicate Detection and Resolution, DDR)软件来处理重复记录。2010年9月,DDR对Worldcat数据库完成了一次完整的检测,删除了510万条重复记录。(从我个人的感觉来说,现在Worldcat的冗余数据确实比大概一年前要少了。)

2003年开始,OCLC开始允许“并列记录”(parallel records,即相同资源使用不同编目语种进行编目的记录。之前作为重复记录处理)。而重印的资源的记录,根据AACR2,要作为单独的记录来处理。但是对于终端用户来说,这种单独的展示是让人困惑的甚至于是失败的。

这还造成了另外的问题。OCLC号连接了元数据和资源的地点,也是Worldcat数据库和外部数据库的连接机制。(当我们从Worldcat数据库的资源页面导向外部的OPAC的时候,搜索项目就是OCLC号,这确实是很有用的一种标识符。突然想到本人很早之前翻译的一篇文章:OCLC控制号作为载体表现标识符)但是随着并列记录和重印(尤其是数字化的重印)的增加,元数据和馆藏信息越来越分散的分布在不同的记录下,这造成了多方面的问题,无论对于终端用户的选择困难还是图书馆之间的资源共享。

继而OCLC提出了一种新的通用标识符的概念:“全球图书馆载体表现标识符”(Global Library Manifestation Identifier, GLIMIR),这是OCLC自2009年开始的项目,用以解决上述问题。新的标识符希望能够克服编目语种、资源格式或者其他方面的问题,实现记录更好的聚合。这个项目目前即将实施,OCLC计划将在12财年度的上半年对Worldcat进行“GLIMIR化”的处理。正文第14页以下也展示了Worlcat在这方面正在进行的其他工作。对我而言比较重要的一个是去除无效的OPAC链接,以我的经验,目前这部分的体验已经足够的不好。

————————

对于没用过Connexion(以及新的Worldcat Local)的人来说,我一直很好奇Worldcat这么庞大的数据库在技术上的一些细节。在这个意义上我觉得这篇报告很有趣。这次看到GLIMIR感觉完全没有印象,Google了一下发现蛮多人都讨论了这个东西。

尼尔森的社会媒体报告,2011年第三季度

Nielson: Social Media Report: Q3 2011

本报告是尼尔森公司对美国和其他主要市场2011年度社会媒体使用情况的扫描。提供了一些最新的数据和发展趋势。根据这份报告的言外之意,社会化媒体=社交网络+博客+另外一些服务。

主要发现:

  • 社交网络和博客继续占用美国人最多的上网时间:23%,遥遥领先排在第二的网游。p. 3
  • 将近80%的活跃的互联网用户使用社交网络和博客。
  • 美国人使用Facebook的时间远远超过他们使用其他任何网站的时间:p. 6 (我个人很惊讶这件事,因为直到去年,FB才在这个数字上超过Google,而且当时Google的访问量比这个报告里的访问量要大很多,不知道是不是计算方法上的问题)
  • 将近40%的社会化媒体的用户通过手机访问这些内容:97%的用户通过计算机访问社会化媒体,37%的用户通过手机访问。p. 7
  • 在美国智能手机使用者用得最多的应用中,社交网络类的应用排名第三:60%的使用率。p. 8
  • 55岁以上的社交网络使用者数量正在大幅增长:在过去一年间增长了109%,是增长最大的族群类型。p. 9
  • 有更多的女性使用社交网络、博客以及在线视频服务(在被调查的网站中,只有Linkedin和Wikia有更多的男性使用者)。但是男性观看视频的时间更长。p. 4, p. 10
  • 53%的活跃的社交网络使用者至少关注一个品牌,32%的人至少关注一个名人。p. 11 (我很好奇这一项在中国的数字)
  • 轻博客服务Tumblr在过去一年间,使用者增加了三倍。p. 12

另外,第7页还有另外一张图很有意思。反映的是2011年第1季度的一个调查(脚注未提供这个调查的范围),在手机所拥有的功能中,社交媒体排在第二位,一共有47%的手机拥有这个功能,但是一共有30%的使用者认为这个功能是有用的(也排在第二位,但是远远落后于GPS)。另外,扫描条码也进入了这个列表,分别有20%和21%的人有这个功能以及认为这个功能是有用的。其实是蛮高的。

最后,根据第8页的图表,现在有很多年轻人在用MySpace,这让我很吃惊。