《图书馆元数据杂志》的“受控词表和语义网”专题

《图书馆元数据杂志》(Journal of Library Metadata)在去年第3-4期上做了一个“受控词表和语义网”的专题。这个期刊是开放获取的,所以应该能免费下载。下面是这一期的目录:

  • Introduction / Steven Miller (Guest Editor) & Jody Perkins (Guest Editor)
    The Journey to Linked Open Data: The Getty Vocabularies / Joan Cobb
  • Transforming the Medical Subject Headings into Linked Data: Creating the Authorized Version of MeSH in RDF / Barbara Bushman, David Anderson & Gang Fu
  • Preparing Controlled Vocabularies for Linked Data: Benefits and Challenges / Silvia B. Southwick, Cory K. Lampert & Richard Southwick
  • Use Existing Data First: Reconcile Metadata before Creating New Controlled Vocabularies / Jeremy Myntti & Anna Neatrour
  • The Importance of Identifiers in the New Web Environment and Using the Uniform Resource Identifier (URI) in Subfield Zero ($0): A Small Step That Is Actually a Big Step / Jackie Shieh & Terry Reese
  • Developing a Tool for Publishing Linked Local Authority Data / Katherine Crowe & Kevin Clair
  • The Visual Vocabulary: Skos:example and the Illustrated Artists’ Books Thesaurus / Allison Jai O’dell
  • Building a Platform to Manage RDA Vocabularies and Data for an International, Linked Data World / Jon Phipps, Gordon Dunsire & Diane Hillmann
  • Ontology Building for Linked Open Data: A Pragmatic Perspective / M. Cristina Pattuelli, Alexandra Provo & Hilary Thorsen

元数据质量笔记:框架

本人作为一个新进的PhD学生,目前的一个很大的兴趣在于对于结果(outcome)这件事的评估。而我在这个大的兴趣之下,一个很感兴趣的事情就是元数据到底能带来怎样的结果。

虽然元数据的质量并不是结果,但是却是元数据产生预期结果的一个很重要的因素。这篇文章想稍微就最近读到的文献讨论一下研究者对于元数据质量这件事。本文,作为第一部分,将讨论评估元数据质量的一些上层框架。

虽然我个人对于他的论断有所保留,但是在1997年发表的一篇讨论网络资源元数据的论文中,Moen等人提到[网络资源的]元数据的质量缺乏概念和操作上的定义。在这篇论文中,作者从下述4个维度定义了23条评估网络资源元数据质量的指标:

  • 准确性(accuracy)
  • 完整性(completeness)
  • 数据的总体特征(profile):根据下文的定义包括数据的整合程度和粒度
  • 可服务型(serviceability)[1]

2004年,Guy等人的论文讨论了如何概念改进数字论文仓储的元数据质量的问题。作者采用了“功能需求”的方式对元数据质量加以评估:他们首先定义了数字仓储的“内部”(系统和用户的需求)和“外部”(互操作的需求)的功能需求,以此作为选择元数据内容标准和取值标准的基础。[2] 这篇文章并没有从评估的角度讨论元数据的质量问题,但是这种看待元数据质量的方法是很重要的。

在Hillman和Bruce2004年的论文中,她们定义了对元数据质量的7种测量标准:

  • 完整性
  • 准确性
  • 数据溯源(provenance)
  • 符合(社区的)期待
  • 逻辑一致(logical consistency and coherence)
  • 时效性
  • 易获取性 [3]

NISO在2001年发表了《构建优秀的数字馆藏指南框架》(A Framework of Guidance for Building Good Digital Collections)的报告。这份报告在2007年发表了第三版。元数据因为其重要性,是这份报告中的一章。这份报告定义了元数据质量的6个原则:

  • 好的元数据符合社区标准
  • 好的元数据支持互操作
  • 好的元数据使用规范控制和内容标准
  • 好的元数据清楚的定义应用的状况和条款(conditions and terms of use)
  • 好的元数据支持资源长期的监护(curation)和保存
  • 好的元数据记录应当具有好的数据对象的特征,包括规范、可靠、可典藏、永久并且具有独一无二的标示 [4]

NISO的这个框架是很全面而且权威的。但是从研究的角度,它并没有直接回答元数据质量的操作定义这件事。

Stvilla等人在2007年发表的论文从“信息质量”(Information quality)的角度讨论了元数据的质量。他们从内部质量、关系质量和规范质量三个角度提出了21点评估的指标。[5]

对我而言,建立评估的框架其实是很困难的一件事。不过现有的框架似乎已经很好的覆盖了这个题目的大多数方面。当然显然这个问题显然还有其他的角度,比如从元数据创建或者使用的过程中讨论质量问题,以及具体到某个应用中的质量问题的评估。接下来的几篇文章,我将继续讨论其他这些问题。

 

参考文献

[1] Moen, W. E., Stewart, E. L., & McClure, C. R. (1997). The Role of Content Analysis in Evaluating Metadata for the U.S. Government Information Locator Service (GILS): Results from an Exploratory Study [Paper]. Retrieved November 1, 2015, from http://digital.library.unt.edu/ark:/67531/metadc36312/

[2] Guy, M., Powell, A., & Day, M. (2004). Improving the Quality of Metadata in Eprint Archives. Ariadne, (38). Retrieved from http://www.ariadne.ac.uk/issue38/guy

[3] Hillmann, D. I., & Bruce, T. R. (2004). The Continuum of Metadata Quality: Defining, Expressing, Exploiting. ALA Editions. Retrieved from http://ecommons.cornell.edu/handle/1813/7895

[4] NISO Framework Working Group. (2007). A framework of guidance for building good digital collections. http://www. niso. org/publications/rp/frame-work3. pdf

[5] Stvilia, B., Gasser, L., Twidale, M. B., & Smith, L. C. (2007). A framework for information quality assessment. Journal of the American Society for Information Science and Technology, 58(12), 1720–1733. http://doi.org/10.1002/asi.20652

[读论文笔记] 最佳实践真的是最佳么?

图书馆员时常面对着大量各种主题德“最佳实践”(best practice)。这些文档当然帮助我们了解别人的实践(或者所谓“行之有效”的实践)。但是从另外的角度上说,我们也往往缺乏对于这些实践的反思。

Gary Price在Library Journal上介绍了加拿大的三位研究者在《基于实证的图书馆和信息实践》(Evidence Based Library and Information Studies)2013年第4期上的文章:“最佳实践真的是最佳么?图书馆和信息研究中最佳实践的综述”(Are Best Practices Really Best? A Review of the Best Practices Literature in Library and Information Studies)。这篇文章就讨论了这个问题。

Citation: Druery, J., McCormack, N., & Murphy, S. (2013). Are Best Practices Really Best? A Review of the Best Practices Literature in Library and Information Studies. Evidence Based Library and Information Practice, 8(4), 110–128.

这篇文章收集了113篇图书馆领域的最佳实践。他们认为,这些最佳实践可以分成如下六类:

  • 观点(18篇,占总数的15%)
  • 文献综述(13篇,12%)
  • 作者所在机构的实践(19篇,17%)
  • 定量或者定性的实证研究(16篇,14%)
  • 之前四种类别的混合(34篇,30%),以及
  • 其他特殊的类型(13篇,12%)

当然在很大程度上,是否是“最佳”取决于如何定义“最佳”以及“最佳实践”。作者发现,在这113篇文献里,只有20篇文献试图定义“最佳实践”这个概念,其他很多文献中,这个概念甚至只是出现在标题里面。而即便在这20篇文献里,对“最佳实践”的定义也是非常不同,比如:

  • 能够产生更好(或最佳)结果的实践
  • 机构和组织制定的标准
  • 通过定量分析以及比较“成功的”组织而产生的标准
  • 适应于特定情况的标准,或者
  • 被人们普遍采用的实践

在结论的部分,本研究似乎支持了之前研究的某些结论,比如最佳实践这件事是很难定义并且证明的,而且最佳实践在实践中更多依赖于人们的观点而不是实证的数据。

作者认为最佳实践中实证的缺失是一个问题,而这个问题的解决之一就是如何在图情教育中嵌入实证的教育——比如如何使用实证的方法评估图书馆的服务效果。那么对于这样的实证教育缺失的环境中呢?(中国,在另外一种意义上,似乎也可以归入此类。)作者建议图书馆从业者当然应该继续在本地语境下采用其他机构的最佳实践,但是我们在思考这些最佳实践的时候,应该有更多的理论上的警醒——一个“好点子”虽然可能对一座具体情况下的图书馆有益,但是它并不是“最佳实践”。