Nalsi的读书笔记:《科学事实的产生和发展》

本学期修了我们学校科学技术研究(Science and Technology Studies,简称STS)专业的一门“科学、技术和社会理论”(Science, Technology and Society Theories)的课。这门课的老师很棒,阅读量很大,讨论很哲学,以及作业很多。但是作为本人有史以来上过最理论、最学术的一门课,我真心觉得受益良多。

所以未来3个月,我可能会把这门课上读到的几本书做一下最基本的读书笔记。

第二周我们要求读了Ludwik Fleck在1935年出版的《科学事实的产生和发展》(Genesis and Development of a Scientific Fact)。这本书实则是STS专业非常传奇的一本书。它往往被看作是STS领域的第一本著作、在30多年前就使用了社会建构主义(social constructionism)的视角来分析对于科学的认识论、以及它直接影响了托马斯·库恩在1962年写出了那本更有名的《科学革命的结构》(虽然两本书讨论的主题几乎一样)。

本书的主旨:科学事实是由社会结构和历史共同构建的,因而永远不存在在认识论上客观的事实。科学社区中存在称之为“智力共同体”(intellectual collective)的社会结构,在同一个共同体中,科学家享有同样的“思维风格”(thought style)。而正是这样的“超越个人”的思维风格,而不是科学家本人,决定了一个社区构造概念的方式。另一方面,我们当下的研究也总是收到之前研究的影响,而在这个意义上,也并不存在决然的对和错的结论。

作者Ludwik Fleck是波兰的医学从业者,也曾经在1930年代写过这本书为代表的一些科学认识论的作品。他在二战以及战后有过更为有趣的个人经历,不过各位可以参考此处所附的维基百科的页面。作者在1930年代深受涂尔干(Emile Durkheim)的功能结构主义社会学的影响(虽然后续的研究证明他对于社会学的认识是很初级、而且只是用于证明他的论证),所以本书的主旨中包含着深厚的社会结构超越于个人的味道,而这本书也在1960年代被莫顿(Roland Merton)和库恩重新发现之后,又影响了库恩那一代的STS研究者。

本书讲述了梅毒研究的发展史,以及华氏测验(Wassermann Reaction)的产生历史。和当时(甚至于现在)人们对于科学的看法相反,作者试图论证这两个科学的发展都并不是直线的、进步的。欧洲中世纪以来对于梅毒的经典看法毫无疑问的影响(作为一个中性词)了现代的科学发展;科学的发展也受到了科学家在“智力共同体”中的位置的影响;而且,在前一个时代被看作是错误的结论,随着新技术的发展,也往往被发现其实是有道理的(相反,我们在随着一个思路前进的时候,也会往往放弃掉很多本来可能也是正确的思路)。

如果说只能选这本书里面我最喜欢的一点,那就是作者说,任何单个实验都无法自动的导向结论,因为里面存在无数科学家的判断:某个证据是错的、是噪音、还是需要解释的真实?所以从观察乃至于实验得出的证据导向某些具体的结论,其实是需要研究者本人大量的主观意志的(而这种主观意志,根据作者的看法,又受到了科学共同体的集体意志的强烈影响)。作者反过来说,最开始的实验一定是无法自动说明任何结论的,而一旦任何一个实验能够自动的说明任何结论,那么这个实验也就必然失去了任何证明的意义,而只是为了向人展示罢了。

这本书给我最大的感受就是,和作者所说的“科学家无法超越共同体”,以及“科学界总是只能证明已有的看法,而并不是提出新的看法”的思路颇为不同,一些人(比如Fleck本人)是能够在一些特定的理论框架下提出新的、截然不同的看法的。比如虽然作者的社会学和哲学的框架都是当时存在的,但是一般看法认为作者的认识论框架是非常有独创性的——虽然也必然受到了当时波兰或者欧洲某些特定的影响,但是对于这一部分影响的追溯是并不太明确的。从这本书反过来说,科学的发展,着实是一件既简单又复杂的事情。

Nalsi的R笔记:RMarkdown

本人PhD的第二学期结束了。这学期上了一门统计的入门课,中间的过程颇为曲折,暂且不提。不过期末作业是用学到的统计方法分析一个数据集,并且写出一篇报告。因为本人最近对于数字人文学的兴趣,所以我选择了美国现代艺术博物馆(MoMA)在Github上发布的馆藏元数据,分析了西方绘画在19世纪末到21世纪初之间尺寸的变化。

因为这门课虽然课程安排上写的工具是SPSS,但是两位老师都很认同现在R在数据分析上的地位,所以也很鼓励我们用R完成全部的作业——所以我也就用R上完了这门课。并且经一位同学(他是一位很有经验的数据科学家)的提醒,第一次用RMarkdown这个插件包(package)完成了我的期末报告。

Markdown,根据Wikipedia的介绍,是一种轻量级的文本标记语言。但是它应用最广的领域是学术写作——尤其是定量研究的学术写作。(Latex是另一种这个领域常用的格式。)

R,作为一个目前在数据科学和数据分析领域应用最广的软件,显然应该有支持这种语言的插件包。以及因为接入了R的平台,这个插件包能够完美的在Markdown文本中插入R的代码和/或R产生的可视化图表。(作为比较,这就比苦逼的截图要容易而且优雅太多了。)

Markdown文本中每一段R的代码称之为一个Knitr chunk。在这个插件包本身的层面,你可以对这个chunk做多种功能的选择:比如选择这个chunk在文本中显示的大小、只显示代码的效果(可视化或者分析结果)、只显示代码本身、不显示所有的信息(比如错误信息或者警告信息),等等。如果你用的R编辑器是RStudio(强烈推荐)的话,那么在RStudio里面你也可以单独显示这段代码产生的结果,这让在文本中插入结果的功能变的非常容易,虽然我个人觉得没办法看到结果在文本的语境下的样子——尤其是文本中的尺寸——显然是一个值得改进的地方。

最后,作为一种常用的格式,它可以被很容易的转换成其他格式,比如Word、幻灯片、PDF、Latex、和HTML。(绝大多数格式都只需要你在这个文件的header的部分稍微改动一下就可以了。而且RStudio自带把rmd文件转换成Word、PDF和HTML的按钮。)

要想了解更多RMarkdown的功能,可以参考RMarkdown的官方文档

《图书馆元数据杂志》的“受控词表和语义网”专题

《图书馆元数据杂志》(Journal of Library Metadata)在去年第3-4期上做了一个“受控词表和语义网”的专题。这个期刊是开放获取的,所以应该能免费下载。下面是这一期的目录:

  • Introduction / Steven Miller (Guest Editor) & Jody Perkins (Guest Editor)
    The Journey to Linked Open Data: The Getty Vocabularies / Joan Cobb
  • Transforming the Medical Subject Headings into Linked Data: Creating the Authorized Version of MeSH in RDF / Barbara Bushman, David Anderson & Gang Fu
  • Preparing Controlled Vocabularies for Linked Data: Benefits and Challenges / Silvia B. Southwick, Cory K. Lampert & Richard Southwick
  • Use Existing Data First: Reconcile Metadata before Creating New Controlled Vocabularies / Jeremy Myntti & Anna Neatrour
  • The Importance of Identifiers in the New Web Environment and Using the Uniform Resource Identifier (URI) in Subfield Zero ($0): A Small Step That Is Actually a Big Step / Jackie Shieh & Terry Reese
  • Developing a Tool for Publishing Linked Local Authority Data / Katherine Crowe & Kevin Clair
  • The Visual Vocabulary: Skos:example and the Illustrated Artists’ Books Thesaurus / Allison Jai O’dell
  • Building a Platform to Manage RDA Vocabularies and Data for an International, Linked Data World / Jon Phipps, Gordon Dunsire & Diane Hillmann
  • Ontology Building for Linked Open Data: A Pragmatic Perspective / M. Cristina Pattuelli, Alexandra Provo & Hilary Thorsen

设计问卷的注意事项

本文摘要自:Babbie, E. R. (2016). The practice of social research. 第9章。本书的作者在这章中讨论了很多和调查方法有关的问题。下面本人摘抄了一些我认为重要的事情:

  • 问卷的格式应该有足够的空间、内容不要填的太满,因为这样可能会让被调查者漏看掉一些内容。
  • 问卷的题目应当是尽可能简洁、清楚、无歧义的
  • 问卷中应当尽可能避免“双管问题”(参见维基百科的词条):即一个问题中实际包含了两个或以上的问题,比如“政府是否应当向富人征税,并且把税收用于教育?”
  • 被调查者应当有能力回答你的问题:你是不是问了被调查者无力回答的问题?
  • 被调查者应当愿意回答你的问题:你是不是问了让被调查者感觉不舒服或者不愿意透露意见的问题?
  • 问题中应当尽可能避免否定语态:在英文中,被调查者很有可能会漏看掉问句中的“not”,中文里面的“不”或许也有同样的问题吧。
  • 避免诱导性的问题:即问题中有任何导向性,鼓励被调查者选择特定的答案。根据很多实证研究,至少在英文中很多问卷中出现的词汇也都会有这样的效果,比如“救助穷人”(assistance to the poor),这被研究者称为“社会称许性偏见”(social desirability bias)。