元数据质量笔记:框架

本人作为一个新进的PhD学生,目前的一个很大的兴趣在于对于结果(outcome)这件事的评估。而我在这个大的兴趣之下,一个很感兴趣的事情就是元数据到底能带来怎样的结果。

虽然元数据的质量并不是结果,但是却是元数据产生预期结果的一个很重要的因素。这篇文章想稍微就最近读到的文献讨论一下研究者对于元数据质量这件事。本文,作为第一部分,将讨论评估元数据质量的一些上层框架。

虽然我个人对于他的论断有所保留,但是在1997年发表的一篇讨论网络资源元数据的论文中,Moen等人提到[网络资源的]元数据的质量缺乏概念和操作上的定义。在这篇论文中,作者从下述4个维度定义了23条评估网络资源元数据质量的指标:

  • 准确性(accuracy)
  • 完整性(completeness)
  • 数据的总体特征(profile):根据下文的定义包括数据的整合程度和粒度
  • 可服务型(serviceability)[1]

2004年,Guy等人的论文讨论了如何概念改进数字论文仓储的元数据质量的问题。作者采用了“功能需求”的方式对元数据质量加以评估:他们首先定义了数字仓储的“内部”(系统和用户的需求)和“外部”(互操作的需求)的功能需求,以此作为选择元数据内容标准和取值标准的基础。[2] 这篇文章并没有从评估的角度讨论元数据的质量问题,但是这种看待元数据质量的方法是很重要的。

在Hillman和Bruce2004年的论文中,她们定义了对元数据质量的7种测量标准:

  • 完整性
  • 准确性
  • 数据溯源(provenance)
  • 符合(社区的)期待
  • 逻辑一致(logical consistency and coherence)
  • 时效性
  • 易获取性 [3]

NISO在2001年发表了《构建优秀的数字馆藏指南框架》(A Framework of Guidance for Building Good Digital Collections)的报告。这份报告在2007年发表了第三版。元数据因为其重要性,是这份报告中的一章。这份报告定义了元数据质量的6个原则:

  • 好的元数据符合社区标准
  • 好的元数据支持互操作
  • 好的元数据使用规范控制和内容标准
  • 好的元数据清楚的定义应用的状况和条款(conditions and terms of use)
  • 好的元数据支持资源长期的监护(curation)和保存
  • 好的元数据记录应当具有好的数据对象的特征,包括规范、可靠、可典藏、永久并且具有独一无二的标示 [4]

NISO的这个框架是很全面而且权威的。但是从研究的角度,它并没有直接回答元数据质量的操作定义这件事。

Stvilla等人在2007年发表的论文从“信息质量”(Information quality)的角度讨论了元数据的质量。他们从内部质量、关系质量和规范质量三个角度提出了21点评估的指标。[5]

对我而言,建立评估的框架其实是很困难的一件事。不过现有的框架似乎已经很好的覆盖了这个题目的大多数方面。当然显然这个问题显然还有其他的角度,比如从元数据创建或者使用的过程中讨论质量问题,以及具体到某个应用中的质量问题的评估。接下来的几篇文章,我将继续讨论其他这些问题。

 

参考文献

[1] Moen, W. E., Stewart, E. L., & McClure, C. R. (1997). The Role of Content Analysis in Evaluating Metadata for the U.S. Government Information Locator Service (GILS): Results from an Exploratory Study [Paper]. Retrieved November 1, 2015, from http://digital.library.unt.edu/ark:/67531/metadc36312/

[2] Guy, M., Powell, A., & Day, M. (2004). Improving the Quality of Metadata in Eprint Archives. Ariadne, (38). Retrieved from http://www.ariadne.ac.uk/issue38/guy

[3] Hillmann, D. I., & Bruce, T. R. (2004). The Continuum of Metadata Quality: Defining, Expressing, Exploiting. ALA Editions. Retrieved from http://ecommons.cornell.edu/handle/1813/7895

[4] NISO Framework Working Group. (2007). A framework of guidance for building good digital collections. http://www. niso. org/publications/rp/frame-work3. pdf

[5] Stvilia, B., Gasser, L., Twidale, M. B., & Smith, L. C. (2007). A framework for information quality assessment. Journal of the American Society for Information Science and Technology, 58(12), 1720–1733. http://doi.org/10.1002/asi.20652

“Nalsi的图情笔记”微信公众号文章列表:2015年10月

或许各位已经知道了,我已经开通了我的微信公众号”Nalsi的图情笔记”。(添加方法:请在微信中搜索“Nalsi的图情笔记”。)之前的计划是把所有和图请资讯有关的内容都发到那里,然后把这个博客转型为我的PhD笔记本。不过因为微信公众号的几个重要不足,我决定以后的文章应该还是会发在两边。

但是10月所有的文章都没发在这里。以下是我10月在微信公众号上所有内容的列表:

 

海尔迈耶问题(Heilmeier Catechism)

乔治·海尔迈耶(George Heilmeier,1936-2014)是美国工程师、技术管理者。他是液晶显示技术的主要发明者之一。(参见他的Wikipedia词条

他在科研领域最著名的事情的就是他提出的“海尔迈耶问题”,这是一组他认为任何研究项目都必须要回答的问题。很有趣的是,目前市面上似乎存在着不同版本的海尔迈耶问题。比如在1992年海尔迈耶本人的一个演讲中,他列举了以下几个问题:[1]

  • 你要做什么?
  • 这件事现在是怎么做的?现在做法有什么局限?
  • 你的方法有哪些创新?你为什么觉得你的方法能够成功?
  • 如果你的方法能够成功,它能带来怎样的变化?
  • 你的方法需要花多少钱?需要花费多少资源?要怎样在中期和结尾进行评估?

在1991年对他进行的一次采访中,海尔迈耶解释了他提出这组问题的一些历史背景。他提到当时的科研环境已经不可能让科学家随随便便拿到经费去做研究了,所以科学家必须去提前计划他们的研究,他们必须去阐明当前实践的不足,等等。[2]

这种方法最佳的使用案例就是撰写科研计划。它可以帮助研究者很全面的总结出这个计划的意义和现实的关联。在这个意义上,我觉得国内的研究者在未来也可以应用这个框架更好的总结自己的研究。

 

参考文献:

[1] Heilmeier, G. (1992). Some reflections on innovation and invention. Founders Award Lecture, National Academy of Engineering, Washington, DC. Retrieved from https://www.isi.edu/~johnh/TEACHING/CS551/ARCHIVE/Heilmeier92a.pdf

[2] Heilmeier, G. H. (1991). Oral history interview with George H. Heilmeier. Retrieved from http://conservancy.umn.edu/handle/11299/107352

无书图书馆,2015

本文的一个稍作修改的版本同步发表于知乎的“图 · 情”专栏

——————正文的分割线——————

本人曾经在3年前写过一篇小文,介绍过当时“无书图书馆”(bookless library)的发展状况。这篇文章试图对过去两年中这一趋势进行简单的总结和评论。总体来说“无书化”或者“少书化”(它比前者要更不可见,但其实是同一件事,并且可能更加重要)是美国图书馆发展的趋势之一。在图书馆中完全去掉实体书,虽然仍然处于起步和尝试的阶段,但是在过去几年中也慢慢为越来越多的图书馆所实践。

和2012年之前的发展状况相似,过去三年中大学理工科图书馆仍然是无书化实践的主力。最主要的两个例子是佛罗里达理工大学(Florida Polytechnic University)的新图书馆以及密歇根大学(University of Michigan)改造后的医学图书馆。

佛罗里达理工大学的新图书馆在2014年8月建成,位于学校主楼的二层。新的图书馆中将完全不再有实体馆藏。学校购买了ProQuest公司的Flow系统作为电子资源的平台,共有13万余种电子书。这个平台还有用户驱动的采购模型,以及面向每一个图书馆用户的个人资源管理功能。图书馆使用佛罗里达州大学系统的馆际互借系统解决用户实体书的需求。但是图书馆强烈鼓励学生优先使用电子资源。[1] 在接受美国全国公共广播电台(NPR)的采访中,图书馆馆长Kathryn Miller谈到这个图书馆的设计意图是为了帮助学生使用最新的技术来得到获取信息和实用信息的经验,帮助他们准备好未来在科技领域工作的技能。[2]

密歇根大学在2015年8月完成了对于Taubman医学图书馆的改造。新的图书馆将50余万卷医学馆藏放到了校外的储存设施中,代之以小型会议室和一个手术模拟系统。这些手段帮助图书馆更有效的帮助学生和教员完成他们的学习和科研任务。[3]

在公共图书馆的领域,一个巨大的变化来自于2013年9月开始运行的BiblioTech图书馆,它是得克萨斯州比尔县(Bixar County)的公共数字图书馆系统。这个图书馆系统是世界范围内第一座没有实体书的公共图书馆。它在设计和运营方式上受到了苹果商店的强烈影响,图书馆内的主体空间摆放了苹果电脑,并且图书馆的制服也在很大程度上模仿了苹果公司工作人员的制服。值得一提的是,这座图书馆的第一家分馆在运行之后的第一年有超过10万名使用者。[4] 而这个图书馆系统的第二家分馆在2015年夏天开放。

在一篇讨论BiblioTech图书馆的报道中,圣拉斐尔公共图书馆(San Rafael Public Library)的馆长,同时也是美国著名图书馆作者的Sarah Houghton提到了无书图书馆成立的三个条件:人们的阅读偏好的变化、数字鸿沟的消除、以及数字资源生态环境的变化。在过去的三年里,这些条件发生着缓慢但是明确的变化。在这个意义上,虽然无书图书馆显然还并不是美国图书馆领域一个最重要的变化,但是它是未来图书馆发展一种不可忽视的模式。就像Sarah Houghton所评论的:全部图书馆实现无书化可能需要100年以上的时间,但是在未来10到20年中,可能会有10%到20%的图书馆不再有书。[5]

在国内,没有实体书的图书馆显然还只是一种理论上的可能性,因为我们在很多方面的发展还显然不具备出现这种图书馆的条件。但是让我们畅想,如果有一天,当我们也建立了完善的数字资源出版环境,当我们的用户也越来越多的接受图书馆里面应该不止是纸本书的时候,我们的图书馆是不是有勇气和能力走出这第一步,来建立一个不同的、但是更有吸引力的图书馆的模式呢?

[1] http://www.theguardian.com/books/2014/aug/29/bookless-library-new-us-university-florida-polytechnic-digital

[2] http://www.npr.org/2014/09/06/346299174/florida-polytechnic-library-goes-book-free

[3] http://www.uofmhealth.org/news/archive/201508/grand-space-learning-u-m-reopens-taubman-health-sciences

[4] http://www.usatoday.com/story/money/business/2014/01/04/san-antonio-bookless-public-library/4310655/

[5] http://www.npr.org/2013/01/15/169412670/a-new-chapter-a-launch-of-the-bookless-library