Nalsi的读书笔记:《大机器:计算机模型、气候数据以及关于全球变暖的政治》

在这个学期STS理论课(参见本人之前的一则读书笔记)即将完成的时候,我读了Paul N. Edwards写的《大机器:计算机模型、气候数据以及关于全球变暖的政治》(A Vast Machine: Computer Models, Climate Data, and the Politics of Global Warming)一书 (Edwards, 2010)。Edwards教授在密歇根大学信息学院和历史学院任教,他的研究领域包括计算机、信息基础设施、以及全球气候科学的历史、政治和文化研究,这本书是他最有名的作品之一,也完全涵盖了他上述所有的研究领域。

这本书很符合STS领域一以贯之的研究路线:对于技术物(technical artifact)的社会构建属性的分析。这本书里面最主要的分析对象就是气候数据——一种我们一般所谓的研究数据。作者从两个角度讨论了数据的社会构建属性:从数据到科学知识之间的过程并不是客观的或者自然的,对于数据的分析涉及很多人为的、主观的因素;甚至于数据本身也并不是客观的或者自然的,数据并不是对于自然现象的客观记录,我们所谓“收集数据”的过程也涉及到了许多人为的、主观的。

本书中的第一个角度也是上一篇读书笔记中Fleck的论点之一,他强调的是知识共同体对于知识产生的决定性的作用。在本书中,作者特别强调了计算机模型(作为一种并不那么客观的技术物)对于从数据中提取知识的重要性。从全球、使用各种方式和设备收集来的数据,只有被“规训”(使用福柯的术语)在某个框架下才能被理解、才能被转变为知识。而这个规训的过程,实则充满了各种社会的和政治的因素。作者在书中说:

Virtually everything we call ‘global data’ is not simply collected; it is checked, filtered, interpreted, and integrated by computer models. (page 188)

在上面提到的第二个角度上,作者提到知识的收集过程也并不如传统的科学主义叙事那样客观的,这尤其体现在不同设备(尤其是不同时代的设备)获取数据的翻译问题、以及现在越来越流行的使用模拟方法来收集数据——而模拟的方法则需要在软件中提供一系列的参数来代表世界的运行。

不过作者也提到,数据和模型的关系并不能简单的用单一的决定论来概括,二者互相依赖、互相影响,因而其实并不存在单纯的数据或者单纯的模型。而作者把这种数据和模型相互依赖的状态称之为“模型-数据共生” (model-data symbiosis)。

Thus, in global climate science, neither pure data nor pure models, exist. Not only are data ‘theory-laden’; models are ‘data-laden’. (page 284)

本书中提到的另外一个重要的概念是“科学摩擦力” (science friction) 的概念——作者在本书中也提到了这个概念在其他方向上的扩展,比如数据摩擦力、计算摩擦力、和元数据摩擦力——它们归根结底指得都是这些技术物在跨越社区和个人边界传播的过程中,会造成额外的时间和工作上的负担,比如一个科学家拿到了另外一个科学家分享的研究数据,但是他需要花费时间来理解数据和处理数据。而在作者和其他人合作的另一篇文章中 (Edwards et al., 2011) 指出,作为终端产品的元数据标准很容易产生这样的摩擦力,因为元数据标准的使用和制定往往是停留在本地的、而成为文档的元数据(虽然其用意在于促进数据的传播),也并不容易被读者所理解,甚或产生误解。

“摩擦力”的概念显然受到了行动者网络理论 (Actor-Network Theory, ANT) 的影响,这是STS领域里面影响力最大的一个理论。它关注人类和非人类的actor(为了照顾非人类的对象,actor往往被称作actant)如何组成社会关系的网络而发挥作用。比如使用本书中的例子,国际气象组织 (World Meteorological Organization) 在制定数据和元数据的国际标准的时候,需要参考现在使用的标准、以及标准应用的信息对象。这些曾经的标准和信息对象都是这个行动网络中的actants,而在这个过程中这些actors或者actants往往需要被重新定义才能嵌入到网络中,而当它们进入网络中的时候,它们也就失去了自己的权利,而把网络的行动主体作为代言人——从而网络的行动主体获得了更大的话语权力。ANT关注权力在微观层面的运作,它假定更为常见的权力模式只是微观的权力模式得到了扩展和复制——而这些模式扩展的政治机理也是ANT研究关注的对象之一。本书的理论脉络受到了ANT的强烈影响——“摩擦力”的概念只是表现之一,它可以看作是对于科学数据在社会网络中被运作的一个很好的个案研究。

参考资料

Edwards, P. N. (2010). A vast machine: Computer models, climate data, and the politics of global warming. Mit Press.

Edwards, P., Mayernik, M. S., Batcheller, A., Bowker, G., & Borgman, C. (2011). Science friction: Data, metadata, and collaboration. Social Studies of Science,

《图书馆元数据杂志》的“受控词表和语义网”专题

《图书馆元数据杂志》(Journal of Library Metadata)在去年第3-4期上做了一个“受控词表和语义网”的专题。这个期刊是开放获取的,所以应该能免费下载。下面是这一期的目录:

  • Introduction / Steven Miller (Guest Editor) & Jody Perkins (Guest Editor)
    The Journey to Linked Open Data: The Getty Vocabularies / Joan Cobb
  • Transforming the Medical Subject Headings into Linked Data: Creating the Authorized Version of MeSH in RDF / Barbara Bushman, David Anderson & Gang Fu
  • Preparing Controlled Vocabularies for Linked Data: Benefits and Challenges / Silvia B. Southwick, Cory K. Lampert & Richard Southwick
  • Use Existing Data First: Reconcile Metadata before Creating New Controlled Vocabularies / Jeremy Myntti & Anna Neatrour
  • The Importance of Identifiers in the New Web Environment and Using the Uniform Resource Identifier (URI) in Subfield Zero ($0): A Small Step That Is Actually a Big Step / Jackie Shieh & Terry Reese
  • Developing a Tool for Publishing Linked Local Authority Data / Katherine Crowe & Kevin Clair
  • The Visual Vocabulary: Skos:example and the Illustrated Artists’ Books Thesaurus / Allison Jai O’dell
  • Building a Platform to Manage RDA Vocabularies and Data for an International, Linked Data World / Jon Phipps, Gordon Dunsire & Diane Hillmann
  • Ontology Building for Linked Open Data: A Pragmatic Perspective / M. Cristina Pattuelli, Alexandra Provo & Hilary Thorsen

元数据质量笔记:框架

本人作为一个新进的PhD学生,目前的一个很大的兴趣在于对于结果(outcome)这件事的评估。而我在这个大的兴趣之下,一个很感兴趣的事情就是元数据到底能带来怎样的结果。

虽然元数据的质量并不是结果,但是却是元数据产生预期结果的一个很重要的因素。这篇文章想稍微就最近读到的文献讨论一下研究者对于元数据质量这件事。本文,作为第一部分,将讨论评估元数据质量的一些上层框架。

虽然我个人对于他的论断有所保留,但是在1997年发表的一篇讨论网络资源元数据的论文中,Moen等人提到[网络资源的]元数据的质量缺乏概念和操作上的定义。在这篇论文中,作者从下述4个维度定义了23条评估网络资源元数据质量的指标:

  • 准确性(accuracy)
  • 完整性(completeness)
  • 数据的总体特征(profile):根据下文的定义包括数据的整合程度和粒度
  • 可服务型(serviceability)[1]

2004年,Guy等人的论文讨论了如何概念改进数字论文仓储的元数据质量的问题。作者采用了“功能需求”的方式对元数据质量加以评估:他们首先定义了数字仓储的“内部”(系统和用户的需求)和“外部”(互操作的需求)的功能需求,以此作为选择元数据内容标准和取值标准的基础。[2] 这篇文章并没有从评估的角度讨论元数据的质量问题,但是这种看待元数据质量的方法是很重要的。

在Hillman和Bruce2004年的论文中,她们定义了对元数据质量的7种测量标准:

  • 完整性
  • 准确性
  • 数据溯源(provenance)
  • 符合(社区的)期待
  • 逻辑一致(logical consistency and coherence)
  • 时效性
  • 易获取性 [3]

NISO在2001年发表了《构建优秀的数字馆藏指南框架》(A Framework of Guidance for Building Good Digital Collections)的报告。这份报告在2007年发表了第三版。元数据因为其重要性,是这份报告中的一章。这份报告定义了元数据质量的6个原则:

  • 好的元数据符合社区标准
  • 好的元数据支持互操作
  • 好的元数据使用规范控制和内容标准
  • 好的元数据清楚的定义应用的状况和条款(conditions and terms of use)
  • 好的元数据支持资源长期的监护(curation)和保存
  • 好的元数据记录应当具有好的数据对象的特征,包括规范、可靠、可典藏、永久并且具有独一无二的标示 [4]

NISO的这个框架是很全面而且权威的。但是从研究的角度,它并没有直接回答元数据质量的操作定义这件事。

Stvilla等人在2007年发表的论文从“信息质量”(Information quality)的角度讨论了元数据的质量。他们从内部质量、关系质量和规范质量三个角度提出了21点评估的指标。[5]

对我而言,建立评估的框架其实是很困难的一件事。不过现有的框架似乎已经很好的覆盖了这个题目的大多数方面。当然显然这个问题显然还有其他的角度,比如从元数据创建或者使用的过程中讨论质量问题,以及具体到某个应用中的质量问题的评估。接下来的几篇文章,我将继续讨论其他这些问题。

 

参考文献

[1] Moen, W. E., Stewart, E. L., & McClure, C. R. (1997). The Role of Content Analysis in Evaluating Metadata for the U.S. Government Information Locator Service (GILS): Results from an Exploratory Study [Paper]. Retrieved November 1, 2015, from http://digital.library.unt.edu/ark:/67531/metadc36312/

[2] Guy, M., Powell, A., & Day, M. (2004). Improving the Quality of Metadata in Eprint Archives. Ariadne, (38). Retrieved from http://www.ariadne.ac.uk/issue38/guy

[3] Hillmann, D. I., & Bruce, T. R. (2004). The Continuum of Metadata Quality: Defining, Expressing, Exploiting. ALA Editions. Retrieved from http://ecommons.cornell.edu/handle/1813/7895

[4] NISO Framework Working Group. (2007). A framework of guidance for building good digital collections. http://www. niso. org/publications/rp/frame-work3. pdf

[5] Stvilia, B., Gasser, L., Twidale, M. B., & Smith, L. C. (2007). A framework for information quality assessment. Journal of the American Society for Information Science and Technology, 58(12), 1720–1733. http://doi.org/10.1002/asi.20652

一个元数据的循环论

在Google Reader上看到了Gavia Libraria博客上讨论RDF的一篇文章,里面归纳了元数据和数据格式标准通常经历的一个循环:

  1. 我们必须给一切东西编码,一切!这样世界才完美。
  2. 看这个标准呀!它复杂到疯狂的程度,都没人能看懂它。我们需要简化这个标准,回归基本的状态。这样世界才完美。
  3. 看这个标准呀!它竟然不包含特殊的情况!我们必须让它可扩展!这样世界才完美。
  4. 看这个标准呀!每个人对它的使用都是不同的!

作者认为微格式当下位于2和3之间的某个位置。

————

这个归纳很有趣。看完这个循环,我突然想到,图书馆的规则和格式似乎也经历过相似的转变(虽然可能没有这样的条分缕析、方向确定),我们是否可以认为,作为总体的传统的图书馆编目,一直卡在1-2之间的某个位置,没有能继续走下去?或者,尽管图书馆的标准可以被视作一种元数据,可是实际上它们和真正的元数据完全缺乏可比性?

————

via: Gavia Libraria: Library standard insularity