语义网 – 第 2 页 – Nalsi的西文编目笔记III

【翻译】国会图书馆可能开始放弃MARC

原地址：http://www.libraryjournal.com/lj/home/890784-264/library_of_congress_may_begin.html.csp

作者：Michael Kelly

译者：Nalsi

国会图书馆（LOC）宣布，它将对书目控制进行一次重要的重新评估，这可能会导致它们逐渐放弃有40年历史的MARC 21格式，现在有数十亿条数据都是用这种格式进行编码的。

“这件事有10分。”当被问及这个项目的范围和重要性的时候，Sally McCallum毫不犹豫的这么说。McCallum是LOC网络开发和MARC标准办公室的主管。

书目框架转换方案（Bibliographic Framework Transition Initiative）的目标是，在当前的技术变革和预算限制的条件下，决定“我们需要做什么，才能转换我们的数字框架”， LOC图书馆服务副馆长Deanna B. Marcum这样说，她也是这个项目的领导者。“如果我们能找到一种方法，把图书馆资源和整个信息资源的世界联系起来，而不只是关注书目信息，这是非常重要的。”她说。

MARC长久以来一直支持着资源共享以及节约编目开销，并且是通过机读形式呈现并且传播书目信息以及其他相关的信息的最主要的标准。通过反思MARC，Marcum说，LOC希望判断，这个标准是否能够“实现进化，并且做到所有我们希望它做的事情，不然我们就取代它”，换成能够和互联网世界更兼容的标准。

LOC考虑需要在当前的元数据编码标准中保留哪些内容，因此，图书馆社区最终可能需要适应其他的数据结构。

“我们的巨大的图书馆基础结构在很大程度上是围绕MARC格式建立起来的，放弃MARC格式可能会导致一些扰乱，并且要耗费一些东西，所以这件事必须要进行的聪明而且仔细，”McCallum说，“我们也可以继续使用MARC，但我们并不希望这样。”

受到RDA的驱动

人们希望，向新的数据结构的转变能够“让书目数据在最新的技术和技术配置下得到应用，比如语义网。”McCallum说。

“我认为我们需要更加乐于探索这些新的数据结构，”McCallum说，“这样，我们的社区能够更容易的使用其他的数据结构，比如XML或者RDF。”

图书馆社区还渴望“从新的以及正在出现的内容标准中获得最大的好处”，如在RDA测试的评论中所提及的，Marcum说。

RDA是一个编目规则，它涵盖了所有的内容和媒介类型（包括数字资源）。RDA大概在一年前发布，用以取代《英美编目条例》第二版（AACR2）。开发RDA是因为人们认识到，图书馆在数字环境下运行，需要处理非图书馆员创建的元数据。RDA把图书馆的编目记录和新的元数据整合在一起，但是在测试中出现了进一步的问题，因而催生了这个新的项目。

“许多人评论说，即便新的编目规则RDA能够让我们把零散的资源更好的连接起来，但是，使用MARC作为新记录的载体其实是有内在的困难的。时间会让我们重视这个问题。”她说。

数据控制未来工作组成立于2006年。它也帮助推动了新的日程。

“它们提出了这个议题。是否到了重新评估MARC标准的时候，这个问题确实是它们提出来的，”Marcum说，“我认为，通过关注这个问题，我们所有人都对现存的障碍变得更敏感，这个障碍阻碍我们当前的系统让信息变得完全可检索。”Marcum说。

变化会慢慢发生

LOC计划，任何变革都只会逐渐推行。

“MARC在未来10年仍然会存在。它使用的太广泛了，”McCallum说，“有太多的服务和产品是根据MARC开发的，因此它的使用只能会是慢慢的减少，然后人们改用其他的标准，当他们能够负担得起改用其他的标准的时候。”

“我们希望变化带有稳定性，”McCallum表示。LOC担心，图书馆承担为海量数字资源提供编目元数据的工作，它们需要承担其费用。

这个项目还会：

促进图书馆元数据在更广阔的网络搜索环境中的再利用
探索在关系导航中对数据模型的利用，比如FRBR，不管这些关系是图书馆员主动编码，还是因语义网而可识别
计划把当前的元数据转移到更新的书目系统中，这些书目系统位于LOC更宽广的技术基础结构下

Marcum说，这个项目将是“完全合作性的”，最初的讨论将会在6月的ALA年会上开始。现在预计将会在2012年和2013年和利益相关者举行一系列会谈。

————

【翻译】基于概念的目录

链接地址：http://everybodyslibraries.com/2009/12/04/understanding-concept-oriented-catalogs/

作者： John Mark Ockerbloom

译者：Nalsi

————

我最近思考了一下未来的图书馆目录，尤其是我读到Diane Hillmann对于最近LC授权的北美MARC记录市场研究报告的评论之
后。Hillman哀叹，这个报告试图把经济和当前的MARC数据记录分配系统联系到一起，可是却没有考虑到另外更加基础的问题，比如这种分配方式是否是
编目工作应当首先关注的问题？或者在互联网时代，编目（就这个词的广义来说）的本质发生了怎样的变化？她得出结论：“我们需要的变化不是记录的变化，也不
是编目员的变化；我们需要用新的方法来思考信息和附加价值。

我同意她的许多观点，但是我也担心，她的建议可能太容易被图书馆的规划者忽略掉。他们可能会认为这种看法是乌托邦，纯粹是空想，和他们现在在做的工作一点关系都没有——也就是说则那样把书和其他资源更有效的放到他们的目录中这个问题。但是实际上，网上的很多地方都已经开始用新的方法来做编目，并且为知识增加价值了，而且这些实践是能够在当前图书馆工作中开展的。所以，我会写几篇博文思考一下我对未来目录的想法，并且说明我们能用怎样的实践来实现这些可能性。

目录是做什么的？

让我们从头开始：人们在使用图书馆目录，或者在从事其他研究的时候，他们在做什么？一般说来，他们在头脑中有了一些概念 [1]，或者概念的组合，他们想要找到相关的信息。他们的概念可能是不完整的，或者被看作研究的开始，人们可能没办法像目录界面所期待的那样表达出这些出概念，但是概念就在那里。

用户开始研究，于是他们会提炼这些概念，改变表达的方式，探索相关的概念，或者是完全改变他们的兴趣。他们发现的资源以及他们了解到的概念（比如说特定的人、作品或者研究议题）让他们进行下一步的行动。但是用户最终的目标是获取有用的知识。目录就是帮助人们从概念出发，获取有用知识资源的方式。

人们可能会思考很多种概念。我们熟悉的图书馆概念包括：图书、人、地点、研究课题，我们之后还会讨论另外一些重要的类型。有时候，人们对于某一个概念已经有了一个特定的知识资源。他们可能有了一个要去查看的引文，或者是某本待读的书。图书馆目录对于这种情况尤其有用，这种情况也就是这一行所谓的“搜索已知单册”。[2]

这不让人惊讶，因为现在的图书馆目录强烈的植根于资源，几乎完全不是围绕概念展开的。它们主要使用MARC书目记录（它描述的是FRBR所谓的载体表现）和MARC馆藏记录（它描述的是能够被获取或者借出的单件）。图书馆科学也精心定义出其他一些概念：带有复杂分类法的主题词；进行广泛规范控制的责任者；把许多书目单册联系到一起的统一题名和丛编；以及其他一些拥有严格设计的受控词表的书目特征。

这些概念出现在我们的MARC记录中，但它们只是次级的实体。它们是目录关注的记录的属性，却不是记录本身。在绝大多数目录中，最接近第一级非资源概念的事情是规范记录。但是这些记录只用最少的信息来描述概念，绝大多数目录使用者都看不到这些信息，而且绝大多数联机目录的界面都没能有效的利用这些记录中包含的信息。

概念：目录中的第一级实体

人们长期以来一直认识到，研究型图书馆的优势之一在于他们具备知识和组织来处理他们的资源，以及这些资源所表达的概念，目录把概念指向资源，所以目录应当更加明确的表现概念，并且使用这些概念来帮助人们找到有用的资源。我们来看看图书馆世界中这种目录的几个例子，比如说，OCLC的Worldcat Identities是围绕作者建立的；或者它们的Fiction Finder是围绕带有多个载体表现的作品建立的；或者Online Books Page的subject map模式（比如说“字母”）。在这些目录中，概念并非只是元数据的属性，或者是标目的一种形式，它是包含很多信息的参照点，人们可以借由它发现知识资源。我会把这种系统称为基于概念的目录（concept-oriented catalogs）：目录使用不同的概念（并非是资源本身的概念）作为第一级的信息中心，帮助读者找到有用的信息资源。

图书馆世界在很大程度上还没有意识到这种目录。当前的图书馆目录通常和概念性知识毫无关系，而且未来目录的架构也还是强调资源本身，只把概念放在第二位。比如说，Coyle和Hillman在她们2007年对于RDA草案的评论中说到：“RDA的焦点是‘资源’，资源也就是FRBR的载体表现/单件，我们发现它和AACR2（旧的编目规则，1978年出版）中前组的‘记录’是一回事”。相似的，OLE的项目最终报告意在建立下一代的图书馆架构，它也把资源当作第一级实体来处理——而不是对于资源的描述。描述知识资源的元数据只是资源的属性，我们不能按照它们自己的方式来管理和分享它们。[4]

互联网规模上基于概念的目录

用户可以获得越来越多的知识资源，通过互联网的扩张、馆际互借服务的发展以及图书馆印刷资源的大规模数字化，所以界定明确、记录翔实以及充分连接在一起的概念对于使用者将越来越重要，因为他们想要在信息的海洋中找到有用的东西。对于读者感兴趣的东西，我们可能永远都不能提供所有界定明确的概念，但是已经被某人、某处定义过的概念对于未来的信息搜索者来说至关重要，如果我们能够明智的管理并且使用这些概念的话。

很多互联网的老鸟可能会觉得这种看法很傻很天真。毕竟，网络从1990年代出现的时候就有许多依照概念组织起来的目录，比如WWW Virtual Library和Yahoo Directory。但是绝大多数人很快就抛弃了他它们，投向Google这样的搜索引擎的怀抱，因为后者更加全面，而且能够处理随意的主题词，而不是事先确定的概念。为什么我们会觉得基于概念的目录能够在互联网的规模上起作用呢，既然网络已经抛弃了它们？

实际上，基于概念的编目至今仍然在网络信息搜索中广为使用。只是说它不是同一种编目罢了。现在最受欢迎的基于概念的目录并不强迫读者必须经过特定的概念等级才能找到他们想要的资源。你用Google搜索它所包含的概念，这个概念就会很明显的显示出来。它的几百万个概念的每一个都会经过名称、重复和相关的检查，能够轻易的和网络的其他地方建立链接。它的绝大多数概念都链接到外部的网络知识资源，以及相关的概念上。这个目录还有不断增长的可收割、结构化的语义元数据，用来描述这些概念。就算是认识到它的缺点的使用者也通常都会觉得，用它作为搜索在线的信息资源的起点是很有用的。而且，每个人都能编辑它。你或许已经知道，我说的就是Wikipedia。人们通常并不觉得Wikipedia是一个目录，我的描述或许会让你明白，它不仅起着目录的功能，而且还是用基于概念的方式。

未来的吸引力

我希望这篇博文让你了解了什么是基于概念的目录，以及如果我们要规划图书馆的未来，它们为什么值得我们思考。在下一篇博文里，我希望讨论图书馆领域内外的一些案例，讨论它们的运作方式，它们关注怎样的概念（以及相关的信息），以及人们是如何搭建并且维护它们的。我还希望展示我们怎样构建面向未来的有用的目录，既使用我们在图书馆中的知识和技能，也运用来自他处的贡献。

注释

[1]我使用广义的“概念”，它指的是能够成为某人研究的任何事情，而不是FRBR中的狭义定义或者某个特定的抽象主题。很难为这个意思找到一个明确的词来表达，因为所有词都被别人用作其它的用途了，这很奇怪。

[2]即便已经发生了网络资源的爆炸增长，我们还是会觉得给传统的目录增加链接解析器是很有用的，能够帮助人们找到像期刊文章这样的资源，因为这些资源不在我们自己的目录中。

[3]我之前曾经就LCSH主题词讨论过这个问题，参见我在subject maps上的作品。我之后会更详细的讨论subject maps，它是基于概念的目录的一种类型。

[4]随着OLE的发展，这种状况可能会改变，数据结构也会得到充实。我现在没有直接研究OLE这个话题，但是我现在和一个顶尖的开发人员一起工作。

————————

处于众所周知的原因，我只能把译文发到这里了。

【翻译】Yee论RDF以及书目数据

原地址：http://kcoyle.blogspot.com/2009/07/yee-on-rdf-and-bibliographic-data.html

作者：Karen Coyle

译者：Nalsi

————

Martha Yee最近在信息技术与图书馆（2009.6 – pp.50-88）中发表了一篇文章，我考虑了一下怎样回答她在这篇文章里提出的问题。这篇文章的题目本身就是一个问题：“书目数据能够直接放在语义网中么？”（回答是：人们已经这样做了）Martha正在指导一项关于编目的未来的令人赞叹的实验，她制定了自己的编目规则，

并且试图把她的想法和语义网社区提出的新概念结合在一起。这篇文章的有价值的地方并不仅仅在于它的结论，其价值也在于它所提出的问题。Martha的构想
仍然没有完成，但这已经激发了人们的思考，引出了进行接下来的讨论和发展。（注：我希望Martha能够把文章发到网上，因为现在这篇文章只有LITA的
成员才能看到）

我目前遇到的问题是，Yee试图为图书馆数据建立RDF模型，但她存在几个基本的误解。而且，她也想要利用FRBR和RDA，但是这两个东西都存在某些内在的一致，让严格的分析变得困难。（Yee给FRBR提出了一个改进的建议，我觉得IFLA应当认真考虑这个建议，就是FRBR中的主题应当是一个关系，而且第三组实体应当在任何情况下都可以使用，不仅仅作为主题。p.
66, #66。然后，IFLA或许应当考虑我就第一组实体提出的相似的建议）

我试图分析Yee的问题，这样我们能够进行一次有用而且内容集中的讨论。

讨论的开始，我会试图根据我对于语义网的理解做出几个基本的陈述。我认为我不是RDF的专家，但是我也怀疑我们身边实在没几个真正精通此道的人。如果读到这篇文章的人不同意我的看法，或者能够提出你喜欢的“RDF基础”，敬请自便。

1、RDF不是一种记录格式，甚至不是一种数据格式

我
们在图书馆工作的人关注书目记录——实际上它是一种复杂的文档，在目录中代表一个复杂的事物，比如说一本书或者一张音乐。RDF和书目记录完全无关。
RDF说的是，数据能够代表事物，而且这些事物之间存在着各种关系。通常造成困惑的一个问题是，任何东西都可以是RDF的事物，所以书、作者、页码、书页
上的单词——如果你愿意，任何或者所有这些东西都可以是你的宇宙中的一部分。

图书馆讨论语义网可能的未来，我发现其中许多的问题是关于记录和应用的：它是否可能把记录根据字顺排列？显示的是什么？但这些问题和RDF并没有直接的关
联。实际上这些问题讨论的是你利用你的数据进行的应用。你可以用具有“RDF特质”的数据建构记录和应用。这些记录和应用与我们今天在使用的记录和应用看
上去可能会不同，它们能够提供一些链接和联系的功能，这些功能是我们今天没法做到的，但是如果你想要你的应用能够实现这个功能，你应当要使用符合RDF模
型的数据。但是，如果如果你要搭建系统，但是你只希望这个系统具有今天图书馆系统的那些功能就够了的话，你就没有必要使用语义网的技术。

2、一个URI（统一资源标识符）是一个标识符，它起到标识的作用

图书馆世界对于使用URI结构的标识符存在许多担心。人们的担心主要表现在“Mark
Twain”会被“http://id.loc.gov/authorities/n79021164”这样的东西取代，展现在读者面前的书目记录就会是下面这个样子：

http://id.loc.gov/authorities/n79021164
Adventures of Tom Sawyer

或许他们不得不等半个小时才能得到结果，因为结果要从远在瓦努阿图的服务器中传送过来。这个看法误解了使用标识符的目的。URL并非是人类可读的显示形式的
替代物。它是一个标识符。它起到标识的作用。尽管我的医疗保险可能把我标识为p37209372，我的大夫还是知道我是Karen。但是，这个标识符能把
我和医疗保险中的许多其他Karen区别开。不管在你的应用中，数据是不是只包含标识符，但是，数据包含一个标识符以及一个首要的显示形式，或者数据包含
一个标识符以及一些不同的显示形式（比如不同语言的显示形式），这都能够称得上是应用，并且满足应用的需求了。要点在于，在数据记录或者数据库中存在标识
符和使用人类可读的形式并不矛盾。

那么，为什么我们要使用标识符呢？标识符能够在错综复杂之中为你提供准确性。对于图书馆的读者来说，责任者n790211164可能是“Mark
Twain”，但对另一些人来说就可能是“Ma-kʻo
Tʻu-wen”，但是如果我们给这两个作者使用了相同的标识符，我们就知道其实他们是一个人。类行星体冥王星（Pluto）和动画人物Pluto的标识
符不同，因为它们是两个不同的东西。它们在某些语言中具有相同的名字是没关系的。标识符并不是为人设计的，但是它很重要，因为机器不能（还不能？）处理自
然语言中的含糊之处。使用标识符，机器就有可能处理像“Herman Melville是Moby
Dick的作者”之类的陈述，而不必理解每一个单词的意思是什么。如果Melville是A123，Moby
Dick是B456，作者关系表示为x->，那么机器就能够回答诸如“A123
x->的所有实体包括？”这样的问题，而这个问题人类会翻译成“Herman
Melville都写过什么书？”

我们通过自身的经验能够知道，建立标识是一件困难的事情。随着我们越来越多的依赖标识符，我们需要意识到，准确的理解某个标识符代表的是什么是非常重要的。
某个图书馆给“Twain,
Mark,”建立了一条规范记录，它表示的可能是一个人，实际上，它表示的是一个“个人责任者”，它可以是一个人，但也可以是一个自然人的作者所使用的许
多笔名中的一个，还可以是许多作者共同使用的一个名字。它的定义和你的比如说IRS或者医疗保险上所使用的人名是不同的。我们也可以很肯定，除非是奇迹，
否则所有人不可能都接受同一个标识符或者标识符系统，所以我们需要转换的系统，能够在不同标识符之间进行翻译。它的工作方式有点类似于xISBN，你输入
一个标识符，继而可以得到系统认为是等价（对于某种标准的“等价”）的一个或者许多个标识符。

3、功能性书目系统之钥在于数据

人们对于图书馆系统已经表达过许多不满。毫无疑问，这些系统存在缺陷。但是，底线是系统处理数据，所以它的关键就是数据。图书馆数据是高度受控的，尽管如此，这些数据设计的原则主要还是显示给人类读者看的，这是一种特定类型的显示方式。

一个严重的问题就是图书馆所谓的“规范控制”。特定的实体（个人、团体、主题）识别为一个特定的人类可读的字符串，创建的记录可以包括这个字符串的不同形
式，以及和这个记录所描述的实体有关的其他字符串。这个信息和书目记录分开存储，后者在资源著录中使用这些字符串。不幸的是，规范记录中的数据并非是为机
器处理而设计的。很难找到简单的例子，所以我举一个经过简化的例子：

US（或者U.S.）是United States的缩写。目录需要告诉读者他们必须使用United
States进行检索，不能用US，或者目录必须允许用这两个词都能检索。规范控制的记录写着：“US，参见United
States”。

当然，United States出现在许多名称中。你或许会认为“United
States”出现的每一处都有这样的参照，比如说United States. Department of State有一个U.S.
Department of
State的参照，告诉使用者说后者不是一个规范的名称……但是实际上没有这个参照。我们假定从U.S.到United
States的参照会不知怎样的应用在所有包含U.S.的条目中。当然，除了不应当应用这个参照的条目，比如说US Tumbler
Co.或者US Telecomm Inc.（但是US Telephone
Association却有）。这里有一个模式，但恐怕这个模式无法通过算法获知，对于我们人类来说也并非一目了然。但是，结论就是，如果你想要机器来处
理你的数据，你必须要按照机器工作的方式来设计你的数据：它们孜孜不倦、感觉迟钝而且愚蠢到让人愤怒的程度：“US”要么和“United
States”相等，要么就不等。

另一个困难产生于理想数据和现实中的数据之间的差别。如果在数据库中只有一半记录有关于作品语言的条目，要是你搜索语言，保证有许多资源的记录永远是搜索
不到的，尽管它们符合你的搜索条件。我们不想要我们的系统笨到只能处理在所有记录里都能期待出现的几个数据元素，但是提供不存在的数据是困难的。使用全文
检索的优点之一在于，我们有可能判断作品优先的语种，即便语种信息没有记录在元数据中，但是如果只处理元数据，这件事你就无能为力了。

如果我们从系统需求的角度研究数据，那么我们可以对图书馆系统作出许多改进。我们不应该用理想化的形式，因为我们永远不可有完美的数据，我们应当研究我们
希望的功能，进而研究我们应当怎样改进数据来支持这样的功能。我们今天的目录数据很好的支持了卡片目录的功能，但我们还没能把它转换到真正机器可读的数
据。也许有一些事情是我们决定不能做的，但是我觉得有一些真正非常划算的可能是我们应当认真考虑的。

接下来……我要进入Martha文章中的问题了。