OCLC 08-09年度报告

OCLC今天公布了它2008-2009财政年度的报告。ResourcesShelf列举了其中的一些数据,总的来说很全面了。

报告的前半部分是Jay Jordan写的一个介绍性质的文字,后半部分按照主题比较详细的介绍了每一个内容。

比较让我惊讶的是这个报告的第一张照片(p. 4)就是詹福瑞先生和OCLC总裁Jordan先生的合影,这是否能说明在这场经济危机中,中国在经济上的地位实在让所有人都不得不重视么?在这张照片下面列举了今年开始向Worldcat上传数据的书目机构名录:

  • ABES (France)
  • Bibliothèque nationale de France
  • Biblioteca Nacional de España
  • Dansk BiblioteksCenter (Denmark)
  • Hessischen Bibliotheks und Informationssystem
  • (HeBIS) consortia
  • Informationsverbund Deutschschweiz (IDS ) (Switzerland)
  • IZUM (Institute of Information Science) ( Slovenia)
  • Kansalliskirjasto (National Library of Finland)
  • Lyon Municipal Library (France)
  • Malmad (Israel)
  • National Library of China
  • National Library of Israel

今年Worldcat数据库新增数据3090万条(从去年的1.082亿增加到今年的1.391亿),增长幅度也是历年之最。相对来说馆藏信息从去年的12.9亿条增加到今年的14.5亿条。

在Jay Jordan写的介绍性文字中,介绍了OCLC的四个战略方向(p. 5):

  • 用户环境(云计算的系统,在当前的Worldcat Local增加了快速启动的功能,作为实现云计算系统的第一步——p. 30;Worldcat支持移动设备——p. 28)
  • 图书馆工作流程管理(这一部分提到荷兰联合目录使用一种Search and Retrieve URLs, SRU的技术让它的数据库和Worldcat数据库实时更新,今年澳大利亚国家图书馆也开始使用这种技术)
  • 网络服务
  • 增加国际地位和可信度(重点介绍了VIAFReference Extract[使用图书馆员最常用的网站构建起来的搜索引擎]这两个项目以及它的在线学习社区WebJunction——意外的发现精灵老师之前的一篇博文,介绍了一些OCLC服务)

另外一个很有意思的事情是它介绍了2005年Worldcat.org出现以来,带来访问量最多的10个外部网站(p. 24),我很惊讶看到百度的名字:

Referrer Clicks
Google 32,820,949
Yahoo! 13,062,789
Universität Karlsruhe 1,976,564
Wikipedia 1,088,882
Scientifi c Commons 439,181
Open Library 430,246
Lexile 338,376
Microsoft 308,557
Baidu 284,421
Dushu 237,512 [经精灵老师提醒,我才意识到这是一个中文的网站,读书网,也是第一次听说]

————

ps. 最近在重新考虑“OCLC的数据贵”这种说法,我觉得它的数据至少不会比国内现在绝大多数书目机构的数据更贵。国外的情况自是不敢说,我想对于国内来说,我们毫无节制的在人力上浪费了那么多钱,没法考虑再花一笔钱买OCLC的数据也是可以理解的,只是我猜想国内和国外在这个问题上的情况应该是不同的吧。

ps2. 在上面看到了几种图书馆和OCLC合作方式(不是全部):

• Contributing metadata;
• Sharing holdings information;
• Sharing staff resources and expertise, such as in a reference cooperative;
• Making digital content available to other members;
• Sharing materials using OCLC services; or by
• Contributing to OCLC in other ways (in the future appended to this list) indicating an agreed-upon significant level of engagement with the cooperative.

 

参见:

编目精灵:Our Space──OCLC总裁在上海图书馆的报告

编目精灵:OCLC2008/2009年度报告数据解读

ReferencesShelf:OCLC Publishes 2008-2009 Annual Report

Library Journal:Too Late or Just Right? OCLC, I-Schools Announce Reference Extract Web Search Project(by Norman Oder)——简单介绍了RefEx

OCLC Newsletter 2008, no.9:http://www.oclc.org/ca/fr/nextspace/009/updates.htm

国会图书馆北美MARC数据市场报告

2009年1月,LC和R2咨询公司(R2 Consulting LLC)签约,进行调查,研究当前美国和加拿大图书馆中书目数据的生产和流通的情况。今天看到报告出现在了LC网站上。(pdf文件

研究目标(p. 3):

  • What is the overall cataloging capacity in North America?
  • Where does it reside?
  • What are the primary distribution pathways and channels for sharing records?
  • How much redundancy is there?
  • What can we predict about cataloging capacity over the next 5‐10 years?
  • What is the estimated need/demand? How does this compare with capacity?
  • What is the relative importance of authority control to libraries?
  • What is the current reliance by North American Libraries on LC cataloging?

为了这次调查,R2建立了一个Ning社区(有墙),共有800多名用户注册。还分别针对图书馆和MARC系统、流通和数据提供者就行了调查(问卷:图书馆问卷提供者问卷),一共有972家图书馆和70家数据提供者参与了调查。(p. 15,作者提到,像OCLC这样的非营利性的图书馆联盟在数据的生产和传播中也起到很重要的作用,但是这些机构在很大程度上没有参与这次调查)

以下是这次调查的几个主要结论(p. 4——详细内容参考第三、四两章):

  1. Library of Congress cataloging continues to be widely valued: LC的数据仍然是编目市场的基石。根据报告提供的数据,LC的OPAC和Z39.50端口每天要接受50万次查询。
  2. The Library of Congress subsidizes portions of the market: LC制作了很多超出他们自身馆藏范围的数据,这部分数据对于他们没有直接收益。
  3. LC records are significantly underpriced: 1902 law(待查)规定LC只能收取数据流通的费用,但是制作数据的费用由LC来承担。
  4. Cataloging
    backlogs continue to grow in many areas and market segments:
    56%的图书馆报告他们的编目积压在增加,分领域统计,报告增长最多的两个领域是DVD和视频资料以及英文专著。(p. 11)——后文又提到DVD编目实现在美国图书馆面临的最大问题之一。
  5. There
    is adequate cataloging capacity in North America to meet the collective
    need: 即便说很多老的编目员都退休了,但是现在美国和加拿大图书馆中的编目员还是太多了,而不是太少了。
  6. Cooperative cataloging has not realized its full potential: 问题不在生产能力这个环节上,报告认为当前合作编目仍然不够。
  7. The market for cataloging records is conflicted: 图书馆在“社区”价值系统中,他们重视开放、获取和免费,但是数据上处于“商业”价值系统,他们需要可持续增长和利润。
  8. The market provides insufficient incentives to stimulate additional original cataloging
  9. 80%
    of libraries edit records for English‐language monographs in their
    local catalog: 绝大多数修改就是为了满足本地的需求。但是作为对比,只有50%的图书馆上传他们修改后的数据。(p. 7)
  10. 78% of libraries are unaware of any restrictions on MARC record use or redistribution

第二部分是对于图书馆调查结构的总结。12页公布了几个关于套录数据的统计:

  • 最可靠的套录数据源:OCLC、LC、AMICUS。学校图书馆(school library)则主要依靠LC的Z39.50和数据商提供的数据;
  • 最常进行的本地数据修改的内容:Adding pagination(增加页数?);为儿童读物或者非英文材料改变标目或者删除标目;增加内容附注;增加Dewey号以及Sears主题词;修改出版时间;增加或者编辑urls;
  • 对于“没有套录数据,你最长可以等多久”这个问题,回答最多选项的是3-6个月。

13页提供了几个关于规范控制的统计:
Academic    Public     School

  • Access to a current file:         73.8%       55.3%     42.4%
  • Access to a non‐current file: 30.2%        38.1%    23.4%
  • No Access:                              .8%       9.5%      35%

对于上述三种图书馆,分别有2.3%、7.7%和28%的图书馆不进行规范控制,分别有36.2%、17.3%和6.7%的图书馆把规范控制的工作外包。对于这一部分,我很好奇国内的图书馆的情况是怎样的。

80.6%的图书馆因为ILS或者数据库的限制没法有终端用户增加内容,但是除了学校图书馆以外,所有正在计划更换或者升级ILS的图书馆都在考虑这个功能。(2.0在美国已经这么强大了么?)

第三部分是对于数据商调查结果的总结:

16页上有一张图很有趣,在参与调查的数据商中,提供电子书数据的数据商比提供专著数据的数据商还要多(39% vs. 35%)。作者分析原因,认为可能是因为传统的数据商现在同时提供两种数据,但是电子书的销售者只提供电子书的数据,所以造成了这样的统计结果。

 

18页以下有很多关于数据上的统计资料,其中很多都很有意思,值得一读。选择几条如下:

在70家数据提供者里面,有50家生产MARC原编数据,其中又有31家生产完全级或者核心级数据。

第三部分的标题为“冲突的市场”(p. 24)。第32页用下图概括了当前的编目市场的总体状况:

 

 

绿色是传统层,在传统层中的实体创建以及/或者购买以及/或者销售MARC数据。据估计,大概三分之二的北美图书馆都包含在这一层之内:

  • 97% of academic libraries operate primarily within the traditional green tier
  • 63% of public libraries operate primarily within the traditional green tier
  • 65% of school libraries operate primarily within the traditional green tier

蓝色叫做“机会主义层”,这一层的技术标志是开放的数据库以及Z39.50端口。随着图书馆经费紧张,越来越多的图书馆开始使用上述两种技术,但是只有以此作为数据主要来源的剩下三分之一图书馆才属于这一层,同时这一层也包括开放式据库的提供者。

紫色叫做非图书馆层。在这一层,新的技术和MARC之外的格式得到了使用和开发,大规模的数字化项目也是从这一层开始的,一方面这一层和之前的两层存在某种
互动(比如有些书目机构开始从Google
Books这样的服务中收割数据,或者图书馆在OPAC中建立Google服务的链接),但这一层也是对于当前图书馆服务最大的挑战(包括上面提及的两种
系统的冲突)。

作者认为LC属于第一层和第二层之间(因为Z39.50技术和免费的开放网站),OCLC横跨第一层和第三层,而OCLC的成员属于第二层(作者以此解释了前一段OCLC数据版权问题的争端)。

本报告的附录B是一张对于服务、数据提供者很全面的描绘。报告21页详细的描述了这张图,这张图把提供者分为七类:

  • Material Vendors and Aggregators
  • A subset of foreign material vendors
  • Commercial bibliographic utilities (CBUs)
  • System Vendors
  • Academic Publishers
  • Binderies
  • Noncommercial Entities ‐ including consortia, cooperatives,
    national libraries, open database providers, regional networks, etc.
    (this universe is vastly under represented)

这张图很博大精深,我需要更仔细的学习之后才能发表评论。

 

参见:

Metalogue:The Market, the Commons, and the Library of Congress

LC News:Library of Congress Releases Reports on Bibliographic Record Production

Dianne Hillman: Bugs in Amber 【译文:琥珀中的蠹虫 @译言】

【翻译】OCLC报告:联机目录:读者和图书馆(一)

下载地址:http://www.oclc.org/reports/onlinecatalogs/default.htm
图林中文译站:http://www.libspace.org/archives/online-catalogs-what-users-and-librarians-want.html

执行总结

终端用户对于网络的期望以及他们在网上的工作实践决定了他们是否使用图书馆联机目录。目录的界面是很重要的,但是目录数据的质量是另外一个重要的因素,它影响了读者以及图书馆员和工作人员对于目录是否有用的判断。OCLC成立研究小组,进行一次全面的、基于事实的研究,以理解目录数据的“质量”都是由哪些因素构成的,本研究的目的是:

l
识别并且比较目录的终端用户以及图书馆员对于数据质量的预期。

l
比较不同类型的图书馆员对于编目数据质量的预期。

l
提出增强编目数据质量的建议,这个建议要考虑到终端用户和图书馆员两方面的看法。

读者如果想要明确哪些要求能够改进编目数据,他们会发现这份报告有助于他们获得构思。读者如果想要在下一代的图书馆目录以及ILS中,贡献、吸收、整合、同步或者关联不同来源的数据,也会从本报告中受益匪浅。

经过选择的核心的观点:

l
对于期望的资源,用户获取的体验和发现的体验相比同等重要,甚至更为重要。

l
用户依赖并期望增强的内容,包括概要/摘要以及目次。

l
高级搜索的选项(支持分字段的搜索)以及分面帮助用户精炼搜索、导航、浏览并管理数量大的结果集。

l
终端用户以及图书馆员希望的数据目录质量加强方式存在显著的差别。

l
图书馆员和工作人员与终端用户一样,都是带着目的使用图书馆的目录以及目录中的数据的。终端用户通常想要找到并获取他们所需要的信息,图书馆员和工作人员通常是完成他们的工作。图书馆员和工作人员的工作影响了他们对于数据质量的偏好。

l
图书馆员对于数据质量加强的选择反映了他们对于目录准确性以及目录中结构化数据的重视。

结果反映了两种现实中的信息组织的方式——一种来自图书馆,另一种来自网络。图书馆员对于数据的看法在很大程度上仍然受到他们专业经典原则的影响,而终端用户对于数据质量的预期在很大程度上来自于流行网站上信息组织的方式。我们现在需要做的就是把这两个世界中最好的部分整合起来,扩展图书馆联机目录质量的定义。

本报告的结尾提出建议,我们应当在数据质量计划中平衡终端用户和图书馆员对于联机目录的希望,继而,我们提出了一些对未来研究的建议。

【翻译】变革来自于民俗

变革来自于民俗

Posted on 01/16/2006 at 05:38:39 PM by Karen G.
Schneider 

 

Teresa的博客介绍了北卡州立大学(NCSU)的图书馆目录,我激动的读完了这篇文章。这个成就是集成图书馆系统发展的重要一步,而且NCSU
的图书馆目录结合了检索和浏览、还结合了强大的搜索引擎,无声的谴责了绝大多数图书馆花了大价钱才买到的图书馆系统,这些系统可悲的笨拙,我们因为不知道
目录可以设计得更好,当初才买了这些系统。

 

至高的存在啊,我们在你面前下跪

绝大多数集成图书馆系统都跟不上搜索引擎的哪怕是最初级的发展:相关度排序、拼写检查、联想搜索(自动断词)还有灵活的选择项,这件事让人惊讶。而图书馆没
有进行创新的原因就是:我们不知道这个专业的领先者,所以我们就不能跟上潮流,并且使用工具来实现用户们所期望的功能。只要我们能够发动图书馆!“安德鲁老大”(Sir
Andrew——即Andrew
Pace
)有一个绝妙的圈子。但是我颤抖着说这句话,因为安德鲁是一个伟人,我在许多会议上都不得不坐在他的旁边——但是NCSU的图书馆目录尽管已经如此之好了,它仍然有很多旧时的限制。

 

第一个限制就是这个目录依赖于美国国会图书馆的主题词表(LCSH),把这个主题词表作为主题检索的结构。他们处理主题词表的方法我很喜欢——把LCSH的链接作为关键词搜索来处理——但是这仍然是LCSH呀,所以这就仍然是一个让人费解的语言,应用起来代价很大,而且这些主题词对于他所谈论的单件来说,要么太宽泛了、要么就太狭窄了。我把LCSH看作是一个单件级别(item-level)的语言,而网络上的绝大多数词汇表——就是图书馆的用户
和编目相抵触的地方——根据的都是收藏级别(collection-level)的语言。你的典型的Flickr的收藏比起绝大多数根据LCSH所组织的
单件都得到了更为精确的描述,单就LCSH的术语来说,我从没听说任何一个图书馆的用户想要一本“烹调术”(cookery)的书。

 

在这儿,猪,猪!

 

NCSU图书馆联机目录的团队就是在用现有的东西在工作,而且包括了一些加强“根据LCSH检索”的熟练的操作,但是作为一种检索的语言,LCSH意味着猪仍然穿着那件衣服。

 

NCSU面临的另一个挑战是,它的链接目录仍然是索引,还不是全文检索的搜索引擎。图书馆的用户——尤其是不太熟悉之前的技术的年轻用户——使用图书馆的工具(比如图书馆主页以及联机编目),期望得到像Google、Amazon、A9、AskJeeves、Technorati、Google图书搜索这些全文检索工具已经提供的功能,而成千上万的其他全文搜索的工具都能迅速满足他们的需要。

 

但是图书馆的应用——也包括NCSU的目录——仍然遵循过去用户行为的概念模型,这还是在过去的卡片目录时代的用户行为模式。用户们现在想要全文,但是我们给他们元数据。他们说我们的工具是残缺不全的,他们是对的。

 

我并不是要低估NCSU对于改进目录的巨大成就。我是想说我们刚刚才理解,我们要做什么才能重新思考21世纪的书目检索和书目控制。但是即便是我们理解了我们要做什么——我相信Andrew几乎比图书馆界的其他人都更理解图书馆目录的不足——我们需要更多、更快的工具才能实现变革。


骑士来临

 

幸运的是,本周也出现了一份会深刻影响到图书馆界的报告。我对于UC报告的唯一的抱怨就是,这是一份极大无比的pdf文件,如果要在网络上阅读和讨论,简单的HTML格式会更有用。

 

但是我不能抱怨。这份报告提到了问题、信念甚至于基于事实的数据,我们中的许多人在大声疾呼图书馆目录彻底不能满足用户们的需要,这些事情是我们这些人都已经很熟悉了。

 

在对于“BSTF”的早期分析中,我最喜欢的文章来自于Lorcan Dempsey,他的博客Lorcan Dempsey’s
weblog
富有魅力,他曾经在这里写过一篇长文
(这篇文章我评论过两次了)。但是我希望能成为第一个评论UC报告的人,这份报告中最要的部分是它指出,重要的是满足用户和他们的需求,而不是固守图书馆员和他们长期以来的实践和习惯。

 

Fiddling with Em Dashes While Cyberspace Burns

 

BSTF相当激进,毫无保留。“在过去的十年间,网络搜索在各处都变得更加简单、更加有效,只有图书馆编目是个例外。”它说,继而引用了“BSTF诵歌”:“用户们想要立刻得到满足。”

 

我惊讶:学术机构起草的报告真的需要提到“满足用户的需要”么?我读这份报告的时候还惊讶了好几次。

 

BSTF
说,图书馆系统已经落后于Amazon、Google和iTunes了,它强烈批评提供“破碎的系统来让人们检索出版的信息”的做法,它举出了全文检索的
例子,它还说传统的采编流程不足以满足用户们的需求,而且入不敷出。BSTF颠覆了传统。报告建议:“考虑只在名称、统一题名、日期和地点使用受控的词
表,放弃为书目数据的主题词使用受控的词表(比如LCSH和MeSH)。”

 

至少就传统的学术标准看来,BSTF是期待标签和民俗分类法的:“我们将继续关注当前对于社会标签、民俗分类法或者相关内容的试验,如果能够证明它们是有价值的,我们会考虑添加这些功能。”

 

对于我们创造元数据所花费的钱和时间:“除了图书馆员自己创造的资源描述,我们也可以从经销商和出版商那里获得元数据,或者从数据中自动生成,或者由用户来
创造……图书馆员创造源数据的费用高得惊人,所以我们应该只把这种源数据用在对于目前以及未来的研究确实有价值的地方。”

 

“证明有价值”这个说法应当刻在石头上,搬到ALA仲冬会议的会场上。这个说法隐含了UC未曾明说的看法,当前一些重要的图书馆的做法既不是由事实推动的,
也并不符合网络环境的逻辑。但是这份报告里的内容比这多得多,从反思怎样著录丛编到号召目录实现FRBR化,不一而足。(果壳中的FRBR:一本相同的
书,我们不应该给读者提供两条数据,这样他们会迷惑)我们应当公开我们的元数据——而且,我们也不要受到它的限制。

 

 

在我们这样分化的世界里,目录应当支持所有的语言(或者,如一些人所说的“非罗马文字”)。应当整合你的资源,不应该把有限的资金分散用在几个重复的图书馆系统上。应当把钱花在内容以及用户的成果上,不应该把钱花在19世纪发展起来的死了的树状目录上。应当努力发展一个搜索框的目录。这个报告中最重要的内容是:我们应当变革,而且我们应当迅速开始变革。我们已经承担不起我们旧有的实践了。

 

我最喜欢BSTF的一点就是,它认为用户才不笨。实际上,用户相当聪明,而且也不会责备图书馆搜索的缺点。大略上,图书馆和信息科学都没能从用户中心的角度分析并试图解决其本身工具的限制。但是这个团队是用户的英雄,于是写出了这份勇敢的报告。

 

————

 

译者的话:UC的报告是我近期读到的最让人激动的东西之一……所以找到了这篇文章来翻译一下。不过这篇文章,包括OPAC2.0,已经过去三年了……