Worldcat数据库的质量:读OCLC报告笔记一则

报告链接:http://www.oclc.org/us/en/reports/worldcatquality/214660usb_WorldCat_Quality.pdf

OCLC的Worldcat质量项目(Worldcat quality project)尤其关注重复记录管理的问题。2008年OCLC的报告(联机目录:读者和图书馆员想要什么,做个迟来的广告)对于Worldcat数据满意度的统计,在人们反映的问题中,重复数据和最少内容的记录(minimal record)是普遍存在的问题。

Worldcat数据库的快速增长加剧了数据质量的问题。问题首先是各国国家图书馆的导入数据,新的元数据超过了之前自动处理重复数据的工具的能力。但是这也让OCLC通过新进入数据库的多语种的数据,获得了进行多语种服务的机会(1998年,Worldcat数据库里的英文内容占64%;2010年,这个数字变成了43%)。其次是OCLC自2008年以来大量导入厂商数据(目前占书目数据库的1.59%),这一部分的数据内容比较少,而且会造成匹配、合并的问题。

OCLC从1991年就开始使用重复检测和分解(Duplicate Detection and Resolution, DDR)软件来处理重复记录。2010年9月,DDR对Worldcat数据库完成了一次完整的检测,删除了510万条重复记录。(从我个人的感觉来说,现在Worldcat的冗余数据确实比大概一年前要少了。)

2003年开始,OCLC开始允许“并列记录”(parallel records,即相同资源使用不同编目语种进行编目的记录。之前作为重复记录处理)。而重印的资源的记录,根据AACR2,要作为单独的记录来处理。但是对于终端用户来说,这种单独的展示是让人困惑的甚至于是失败的。

这还造成了另外的问题。OCLC号连接了元数据和资源的地点,也是Worldcat数据库和外部数据库的连接机制。(当我们从Worldcat数据库的资源页面导向外部的OPAC的时候,搜索项目就是OCLC号,这确实是很有用的一种标识符。突然想到本人很早之前翻译的一篇文章:OCLC控制号作为载体表现标识符)但是随着并列记录和重印(尤其是数字化的重印)的增加,元数据和馆藏信息越来越分散的分布在不同的记录下,这造成了多方面的问题,无论对于终端用户的选择困难还是图书馆之间的资源共享。

继而OCLC提出了一种新的通用标识符的概念:“全球图书馆载体表现标识符”(Global Library Manifestation Identifier, GLIMIR),这是OCLC自2009年开始的项目,用以解决上述问题。新的标识符希望能够克服编目语种、资源格式或者其他方面的问题,实现记录更好的聚合。这个项目目前即将实施,OCLC计划将在12财年度的上半年对Worldcat进行“GLIMIR化”的处理。正文第14页以下也展示了Worlcat在这方面正在进行的其他工作。对我而言比较重要的一个是去除无效的OPAC链接,以我的经验,目前这部分的体验已经足够的不好。

————————

对于没用过Connexion(以及新的Worldcat Local)的人来说,我一直很好奇Worldcat这么庞大的数据库在技术上的一些细节。在这个意义上我觉得这篇报告很有趣。这次看到GLIMIR感觉完全没有印象,Google了一下发现蛮多人都讨论了这个东西。

OCLC世界图书馆地图服务

这几天在GR上看到有人分享的OCLC世界地图(World Map)的服务。在它的首页上看到这个服务是今年1月发布的。这个服务用可视化的方式呈现各国图书馆的基本数据,包括:

 

  • 各国出版物的语种;
  • 各国图书馆(包括国家图书馆、大学图书馆、公共图书馆和专业图书馆)的馆藏数量;
  • 各国各类型图书馆的数量;
  • 各国各类型图书馆中图书馆员的数量;
  • 各国各类型图书馆的用户的数量;
  • 各国各类型图书馆的经费;
  • 各国出版社、博物馆和档案馆的数量。

 

这个服务采用了Google Map作为框架。基本的信息到国家一层,美国的数据具体到州。就是很直观而且有趣的一个服务。(不过不知道为什么,我很想看中国的数据来着,不过我打不开“亚太地区”这一部分的数据)

————

我喜欢Google的一个巨大的原因就是因为它有太多太多的可能甚至是微不足道的创意(比如著名的Doodle,最近申请了专利)。我喜欢OCLC的原因也大体如是,虽然在一些领域我对它很不满,但是它根据各种数据开发的工具真的让人不得不赞叹。

————

参见:

Nalsi的西文编目笔记II:OCLC Worldcat Genre

OCLC的新服务:Worldcat Genres

前几天OCLC的副总裁Lorcan Dempsey在博客中介绍了OCLC推出的另一个基于Worldcat数据库的服务:Worldcat Genres。这是一个从作品载体的角度对书目数据进行揭示的服务。[从其产品页上可见,目前这个服务还是试用版]

它的主页采取的是大搜索框和词语列表的方式。很清爽。

上图是“Adventure fiction”这个实体的页面。页面上方是它的定义和相关实体。下方则对应和这个实体有关的一些其他实体:作者、图书、主题、角色、地点等等。作者这个实体会链接到Worldcat Identity的数据库,其他的实体多数都链接到Worldcat.org相关的检索项。在这个实体的页面还有和Twitter的一个关联,可以把这个网址共享到Twitter上。

————

via: Lorcan Dempsey’s Weblog: Beyond record… genres

OCLC学术讲座|产品推介会参加记

长途跋涉从单位来到国科图。大学的时候经常来——因为这里很安静,而且有很多有意思的K类图书。上班之后就一次也没来过了。来之前听说了某个同学的八卦一则。

到了之后见到不少认识的同学和老师,比如徐青一同学和表哥。

来之前就被同事打预防针,说OCLC的讲座一般都是广告。讲座开始发现果不其然。当然王老师讲座中的戏剧张力是我很欣赏的,不过内容和cloud computing实在没有太多关联。worldcat local确实是一个cloud computing的精彩案例,不过主讲人似乎把太多精力放到了opac2.0这个内容上——虽然我也不否认这件事很有意思就是了。他提到,现在已经有超过1000家机构在使用worldcat local了,确实挺多的,我个人也很期待第一个使用这个服务的中国图书馆——多希望是我们呀。

另外,今天上午小小的做了一下功课:
Marshall Breeding: In Challenge to ILS Industry, OCLC Extends WorldCat Local To Launch New Library System

另外,他传教士般的语气让人印象深刻。

然后是蔡淑思女士介绍CONTENDdm这个服务。这一部分让我印象很深刻。比如它的强大的功能、它对于不同程度的对象的不同等级:你可以选择在自己的服务器上架设,也可以把服务构架在云上。另外就是本地的数据可以自动的被worldcat收割,继而出现在互联网上。总之这是一个相当值得关注的服务。

于是回头看了一下精灵老师的博文:ContentDM试用记。感觉有了一些新的认识——第一次看基本没看懂。