nalsi – 第 2 页 – Nalsi的西文编目笔记III

Nalsi的读书笔记：《科学事实的产生和发展》

本学期修了我们学校科学技术研究（Science and Technology Studies，简称STS）专业的一门“科学、技术和社会理论”（Science, Technology and Society Theories）的课。这门课的老师很棒，阅读量很大，讨论很哲学，以及作业很多。但是作为本人有史以来上过最理论、最学术的一门课，我真心觉得受益良多。

所以未来3个月，我可能会把这门课上读到的几本书做一下最基本的读书笔记。

第二周我们要求读了Ludwik Fleck在1935年出版的《科学事实的产生和发展》（Genesis and Development of a Scientific Fact）。这本书实则是STS专业非常传奇的一本书。它往往被看作是STS领域的第一本著作、在30多年前就使用了社会建构主义（social constructionism）的视角来分析对于科学的认识论、以及它直接影响了托马斯·库恩在1962年写出了那本更有名的《科学革命的结构》（虽然两本书讨论的主题几乎一样）。

本书的主旨：科学事实是由社会结构和历史共同构建的，因而永远不存在在认识论上客观的事实。科学社区中存在称之为“智力共同体”（intellectual collective）的社会结构，在同一个共同体中，科学家享有同样的“思维风格”（thought style）。而正是这样的“超越个人”的思维风格，而不是科学家本人，决定了一个社区构造概念的方式。另一方面，我们当下的研究也总是收到之前研究的影响，而在这个意义上，也并不存在决然的对和错的结论。

作者Ludwik Fleck是波兰的医学从业者，也曾经在1930年代写过这本书为代表的一些科学认识论的作品。他在二战以及战后有过更为有趣的个人经历，不过各位可以参考此处所附的维基百科的页面。作者在1930年代深受涂尔干（Emile Durkheim）的功能结构主义社会学的影响（虽然后续的研究证明他对于社会学的认识是很初级、而且只是用于证明他的论证），所以本书的主旨中包含着深厚的社会结构超越于个人的味道，而这本书也在1960年代被莫顿（Roland Merton）和库恩重新发现之后，又影响了库恩那一代的STS研究者。

本书讲述了梅毒研究的发展史，以及华氏测验（Wassermann Reaction）的产生历史。和当时（甚至于现在）人们对于科学的看法相反，作者试图论证这两个科学的发展都并不是直线的、进步的。欧洲中世纪以来对于梅毒的经典看法毫无疑问的影响（作为一个中性词）了现代的科学发展；科学的发展也受到了科学家在“智力共同体”中的位置的影响；而且，在前一个时代被看作是错误的结论，随着新技术的发展，也往往被发现其实是有道理的（相反，我们在随着一个思路前进的时候，也会往往放弃掉很多本来可能也是正确的思路）。

如果说只能选这本书里面我最喜欢的一点，那就是作者说，任何单个实验都无法自动的导向结论，因为里面存在无数科学家的判断：某个证据是错的、是噪音、还是需要解释的真实？所以从观察乃至于实验得出的证据导向某些具体的结论，其实是需要研究者本人大量的主观意志的（而这种主观意志，根据作者的看法，又受到了科学共同体的集体意志的强烈影响）。作者反过来说，最开始的实验一定是无法自动说明任何结论的，而一旦任何一个实验能够自动的说明任何结论，那么这个实验也就必然失去了任何证明的意义，而只是为了向人展示罢了。

这本书给我最大的感受就是，和作者所说的“科学家无法超越共同体”，以及“科学界总是只能证明已有的看法，而并不是提出新的看法”的思路颇为不同，一些人（比如Fleck本人）是能够在一些特定的理论框架下提出新的、截然不同的看法的。比如虽然作者的社会学和哲学的框架都是当时存在的，但是一般看法认为作者的认识论框架是非常有独创性的——虽然也必然受到了当时波兰或者欧洲某些特定的影响，但是对于这一部分影响的追溯是并不太明确的。从这本书反过来说，科学的发展，着实是一件既简单又复杂的事情。

Nalsi的R笔记：RMarkdown

本人PhD的第二学期结束了。这学期上了一门统计的入门课，中间的过程颇为曲折，暂且不提。不过期末作业是用学到的统计方法分析一个数据集，并且写出一篇报告。因为本人最近对于数字人文学的兴趣，所以我选择了美国现代艺术博物馆（MoMA）在Github上发布的馆藏元数据，分析了西方绘画在19世纪末到21世纪初之间尺寸的变化。

因为这门课虽然课程安排上写的工具是SPSS，但是两位老师都很认同现在R在数据分析上的地位，所以也很鼓励我们用R完成全部的作业——所以我也就用R上完了这门课。并且经一位同学（他是一位很有经验的数据科学家）的提醒，第一次用RMarkdown这个插件包（package）完成了我的期末报告。

Markdown，根据Wikipedia的介绍，是一种轻量级的文本标记语言。但是它应用最广的领域是学术写作——尤其是定量研究的学术写作。（Latex是另一种这个领域常用的格式。）

R，作为一个目前在数据科学和数据分析领域应用最广的软件，显然应该有支持这种语言的插件包。以及因为接入了R的平台，这个插件包能够完美的在Markdown文本中插入R的代码和／或R产生的可视化图表。（作为比较，这就比苦逼的截图要容易而且优雅太多了。）

Markdown文本中每一段R的代码称之为一个Knitr chunk。在这个插件包本身的层面，你可以对这个chunk做多种功能的选择：比如选择这个chunk在文本中显示的大小、只显示代码的效果（可视化或者分析结果）、只显示代码本身、不显示所有的信息（比如错误信息或者警告信息），等等。如果你用的R编辑器是RStudio（强烈推荐）的话，那么在RStudio里面你也可以单独显示这段代码产生的结果，这让在文本中插入结果的功能变的非常容易，虽然我个人觉得没办法看到结果在文本的语境下的样子——尤其是文本中的尺寸——显然是一个值得改进的地方。

最后，作为一种常用的格式，它可以被很容易的转换成其他格式，比如Word、幻灯片、PDF、Latex、和HTML。（绝大多数格式都只需要你在这个文件的header的部分稍微改动一下就可以了。而且RStudio自带把rmd文件转换成Word、PDF和HTML的按钮。）

要想了解更多RMarkdown的功能，可以参考RMarkdown的官方文档。

《图书馆元数据杂志》的“受控词表和语义网”专题

《图书馆元数据杂志》（Journal of Library Metadata）在去年第3-4期上做了一个“受控词表和语义网”的专题。这个期刊是开放获取的，所以应该能免费下载。下面是这一期的目录：

Introduction ／ Steven Miller (Guest Editor) & Jody Perkins (Guest Editor)
The Journey to Linked Open Data: The Getty Vocabularies ／ Joan Cobb
Transforming the Medical Subject Headings into Linked Data: Creating the Authorized Version of MeSH in RDF ／ Barbara Bushman, David Anderson & Gang Fu
Preparing Controlled Vocabularies for Linked Data: Benefits and Challenges ／ Silvia B. Southwick, Cory K. Lampert & Richard Southwick
Use Existing Data First: Reconcile Metadata before Creating New Controlled Vocabularies ／ Jeremy Myntti & Anna Neatrour
The Importance of Identifiers in the New Web Environment and Using the Uniform Resource Identifier (URI) in Subfield Zero ($0): A Small Step That Is Actually a Big Step ／ Jackie Shieh & Terry Reese
Developing a Tool for Publishing Linked Local Authority Data ／ Katherine Crowe & Kevin Clair
The Visual Vocabulary: Skos:example and the Illustrated Artists’ Books Thesaurus ／ Allison Jai O’dell
Building a Platform to Manage RDA Vocabularies and Data for an International, Linked Data World ／ Jon Phipps, Gordon Dunsire & Diane Hillmann
Ontology Building for Linked Open Data: A Pragmatic Perspective ／ M. Cristina Pattuelli, Alexandra Provo & Hilary Thorsen

设计问卷的注意事项

本文摘要自：Babbie, E. R. (2016). The practice of social research. 第9章。本书的作者在这章中讨论了很多和调查方法有关的问题。下面本人摘抄了一些我认为重要的事情：

问卷的格式应该有足够的空间、内容不要填的太满，因为这样可能会让被调查者漏看掉一些内容。
问卷的题目应当是尽可能简洁、清楚、无歧义的。
问卷中应当尽可能避免“双管问题”（参见维基百科的词条）：即一个问题中实际包含了两个或以上的问题，比如“政府是否应当向富人征税，并且把税收用于教育？”
被调查者应当有能力回答你的问题：你是不是问了被调查者无力回答的问题？
被调查者应当愿意回答你的问题：你是不是问了让被调查者感觉不舒服或者不愿意透露意见的问题？
问题中应当尽可能避免否定语态：在英文中，被调查者很有可能会漏看掉问句中的“not”，中文里面的“不”或许也有同样的问题吧。
避免诱导性的问题：即问题中有任何导向性，鼓励被调查者选择特定的答案。根据很多实证研究，至少在英文中很多问卷中出现的词汇也都会有这样的效果，比如“救助穷人”（assistance to the poor），这被研究者称为“社会称许性偏见”（social desirability bias）。