Nalsi的R笔记:RMarkdown

本人PhD的第二学期结束了。这学期上了一门统计的入门课,中间的过程颇为曲折,暂且不提。不过期末作业是用学到的统计方法分析一个数据集,并且写出一篇报告。因为本人最近对于数字人文学的兴趣,所以我选择了美国现代艺术博物馆(MoMA)在Github上发布的馆藏元数据,分析了西方绘画在19世纪末到21世纪初之间尺寸的变化。

因为这门课虽然课程安排上写的工具是SPSS,但是两位老师都很认同现在R在数据分析上的地位,所以也很鼓励我们用R完成全部的作业——所以我也就用R上完了这门课。并且经一位同学(他是一位很有经验的数据科学家)的提醒,第一次用RMarkdown这个插件包(package)完成了我的期末报告。

Markdown,根据Wikipedia的介绍,是一种轻量级的文本标记语言。但是它应用最广的领域是学术写作——尤其是定量研究的学术写作。(Latex是另一种这个领域常用的格式。)

R,作为一个目前在数据科学和数据分析领域应用最广的软件,显然应该有支持这种语言的插件包。以及因为接入了R的平台,这个插件包能够完美的在Markdown文本中插入R的代码和/或R产生的可视化图表。(作为比较,这就比苦逼的截图要容易而且优雅太多了。)

Markdown文本中每一段R的代码称之为一个Knitr chunk。在这个插件包本身的层面,你可以对这个chunk做多种功能的选择:比如选择这个chunk在文本中显示的大小、只显示代码的效果(可视化或者分析结果)、只显示代码本身、不显示所有的信息(比如错误信息或者警告信息),等等。如果你用的R编辑器是RStudio(强烈推荐)的话,那么在RStudio里面你也可以单独显示这段代码产生的结果,这让在文本中插入结果的功能变的非常容易,虽然我个人觉得没办法看到结果在文本的语境下的样子——尤其是文本中的尺寸——显然是一个值得改进的地方。

最后,作为一种常用的格式,它可以被很容易的转换成其他格式,比如Word、幻灯片、PDF、Latex、和HTML。(绝大多数格式都只需要你在这个文件的header的部分稍微改动一下就可以了。而且RStudio自带把rmd文件转换成Word、PDF和HTML的按钮。)

要想了解更多RMarkdown的功能,可以参考RMarkdown的官方文档

《图书馆元数据杂志》的“受控词表和语义网”专题

《图书馆元数据杂志》(Journal of Library Metadata)在去年第3-4期上做了一个“受控词表和语义网”的专题。这个期刊是开放获取的,所以应该能免费下载。下面是这一期的目录:

  • Introduction / Steven Miller (Guest Editor) & Jody Perkins (Guest Editor)
    The Journey to Linked Open Data: The Getty Vocabularies / Joan Cobb
  • Transforming the Medical Subject Headings into Linked Data: Creating the Authorized Version of MeSH in RDF / Barbara Bushman, David Anderson & Gang Fu
  • Preparing Controlled Vocabularies for Linked Data: Benefits and Challenges / Silvia B. Southwick, Cory K. Lampert & Richard Southwick
  • Use Existing Data First: Reconcile Metadata before Creating New Controlled Vocabularies / Jeremy Myntti & Anna Neatrour
  • The Importance of Identifiers in the New Web Environment and Using the Uniform Resource Identifier (URI) in Subfield Zero ($0): A Small Step That Is Actually a Big Step / Jackie Shieh & Terry Reese
  • Developing a Tool for Publishing Linked Local Authority Data / Katherine Crowe & Kevin Clair
  • The Visual Vocabulary: Skos:example and the Illustrated Artists’ Books Thesaurus / Allison Jai O’dell
  • Building a Platform to Manage RDA Vocabularies and Data for an International, Linked Data World / Jon Phipps, Gordon Dunsire & Diane Hillmann
  • Ontology Building for Linked Open Data: A Pragmatic Perspective / M. Cristina Pattuelli, Alexandra Provo & Hilary Thorsen

设计问卷的注意事项

本文摘要自:Babbie, E. R. (2016). The practice of social research. 第9章。本书的作者在这章中讨论了很多和调查方法有关的问题。下面本人摘抄了一些我认为重要的事情:

  • 问卷的格式应该有足够的空间、内容不要填的太满,因为这样可能会让被调查者漏看掉一些内容。
  • 问卷的题目应当是尽可能简洁、清楚、无歧义的
  • 问卷中应当尽可能避免“双管问题”(参见维基百科的词条):即一个问题中实际包含了两个或以上的问题,比如“政府是否应当向富人征税,并且把税收用于教育?”
  • 被调查者应当有能力回答你的问题:你是不是问了被调查者无力回答的问题?
  • 被调查者应当愿意回答你的问题:你是不是问了让被调查者感觉不舒服或者不愿意透露意见的问题?
  • 问题中应当尽可能避免否定语态:在英文中,被调查者很有可能会漏看掉问句中的“not”,中文里面的“不”或许也有同样的问题吧。
  • 避免诱导性的问题:即问题中有任何导向性,鼓励被调查者选择特定的答案。根据很多实证研究,至少在英文中很多问卷中出现的词汇也都会有这样的效果,比如“救助穷人”(assistance to the poor),这被研究者称为“社会称许性偏见”(social desirability bias)。

元数据质量笔记:框架

本人作为一个新进的PhD学生,目前的一个很大的兴趣在于对于结果(outcome)这件事的评估。而我在这个大的兴趣之下,一个很感兴趣的事情就是元数据到底能带来怎样的结果。

虽然元数据的质量并不是结果,但是却是元数据产生预期结果的一个很重要的因素。这篇文章想稍微就最近读到的文献讨论一下研究者对于元数据质量这件事。本文,作为第一部分,将讨论评估元数据质量的一些上层框架。

虽然我个人对于他的论断有所保留,但是在1997年发表的一篇讨论网络资源元数据的论文中,Moen等人提到[网络资源的]元数据的质量缺乏概念和操作上的定义。在这篇论文中,作者从下述4个维度定义了23条评估网络资源元数据质量的指标:

  • 准确性(accuracy)
  • 完整性(completeness)
  • 数据的总体特征(profile):根据下文的定义包括数据的整合程度和粒度
  • 可服务型(serviceability)[1]

2004年,Guy等人的论文讨论了如何概念改进数字论文仓储的元数据质量的问题。作者采用了“功能需求”的方式对元数据质量加以评估:他们首先定义了数字仓储的“内部”(系统和用户的需求)和“外部”(互操作的需求)的功能需求,以此作为选择元数据内容标准和取值标准的基础。[2] 这篇文章并没有从评估的角度讨论元数据的质量问题,但是这种看待元数据质量的方法是很重要的。

在Hillman和Bruce2004年的论文中,她们定义了对元数据质量的7种测量标准:

  • 完整性
  • 准确性
  • 数据溯源(provenance)
  • 符合(社区的)期待
  • 逻辑一致(logical consistency and coherence)
  • 时效性
  • 易获取性 [3]

NISO在2001年发表了《构建优秀的数字馆藏指南框架》(A Framework of Guidance for Building Good Digital Collections)的报告。这份报告在2007年发表了第三版。元数据因为其重要性,是这份报告中的一章。这份报告定义了元数据质量的6个原则:

  • 好的元数据符合社区标准
  • 好的元数据支持互操作
  • 好的元数据使用规范控制和内容标准
  • 好的元数据清楚的定义应用的状况和条款(conditions and terms of use)
  • 好的元数据支持资源长期的监护(curation)和保存
  • 好的元数据记录应当具有好的数据对象的特征,包括规范、可靠、可典藏、永久并且具有独一无二的标示 [4]

NISO的这个框架是很全面而且权威的。但是从研究的角度,它并没有直接回答元数据质量的操作定义这件事。

Stvilla等人在2007年发表的论文从“信息质量”(Information quality)的角度讨论了元数据的质量。他们从内部质量、关系质量和规范质量三个角度提出了21点评估的指标。[5]

对我而言,建立评估的框架其实是很困难的一件事。不过现有的框架似乎已经很好的覆盖了这个题目的大多数方面。当然显然这个问题显然还有其他的角度,比如从元数据创建或者使用的过程中讨论质量问题,以及具体到某个应用中的质量问题的评估。接下来的几篇文章,我将继续讨论其他这些问题。

 

参考文献

[1] Moen, W. E., Stewart, E. L., & McClure, C. R. (1997). The Role of Content Analysis in Evaluating Metadata for the U.S. Government Information Locator Service (GILS): Results from an Exploratory Study [Paper]. Retrieved November 1, 2015, from http://digital.library.unt.edu/ark:/67531/metadc36312/

[2] Guy, M., Powell, A., & Day, M. (2004). Improving the Quality of Metadata in Eprint Archives. Ariadne, (38). Retrieved from http://www.ariadne.ac.uk/issue38/guy

[3] Hillmann, D. I., & Bruce, T. R. (2004). The Continuum of Metadata Quality: Defining, Expressing, Exploiting. ALA Editions. Retrieved from http://ecommons.cornell.edu/handle/1813/7895

[4] NISO Framework Working Group. (2007). A framework of guidance for building good digital collections. http://www. niso. org/publications/rp/frame-work3. pdf

[5] Stvilia, B., Gasser, L., Twidale, M. B., & Smith, L. C. (2007). A framework for information quality assessment. Journal of the American Society for Information Science and Technology, 58(12), 1720–1733. http://doi.org/10.1002/asi.20652