豆瓣启用“版本”功能

长久以来我一直觉得豆瓣虽然是一个非常好的2.0网站(当然最近或许也没那么好,在压制言论这个问题上),但是书目的功能上做得还蛮糟糕的,尤其是它没有区分所谓的FRBR的第一组实体。

刚刚收到豆瓣的系统消息,它开始启用作品版本这个概念了,当然现在还只限于图书:

亲爱的Nalsi:

图书版本功能已经上线。现在你能在某些图书的右侧看到它的其他版本,比如这本《朝花夕拾》右侧
http://www.douban.com/subject/1449352/

图书版本上线之后,同一作品的其他版本就不会重复出现在推荐里了。不同版本的图书还会有一个作品页面(
比如红楼梦
http://www.douban.com/book/works/1001757),方便书虫们比较各个版本的好坏。

我们知道你在读书方面有浓厚的兴趣,欢迎你帮助我们更新版本信息。如果你知道某些版本信息,可以去该本图书的“增改描述、封面图片”内的“添加其他版本”进行添加。在既有的作品页面,你也可以添加、报错或者删掉某些错误版本。

更多版本信息请访问 http://www.douban.com/help/subject#t5-q0

欢迎你为图书版本信息添砖加瓦。

目前主要的改动主要表现在:1、作品页的“其他版本”的提示(如上);2、在豆瓣主页不再推荐同一作品的不同版本;3、作品页面(如上)——但是目前只有多版本的作品才有这个页面

而且在搜索图书的时候,同一部作品的不同版本仍然会同时出现在搜索结果里。

作为我个人,当然很期待豆瓣有一天能完全实现FRBR化(我当然是说最狭义的FRBR化,也就是说,变成语义网络中的真正的“书目世界”),很期待。

【翻译】Coyle论FRSAD

原文地址:http://kcoyle.blogspot.com/2009/08/frsad.html
作者:Karen Coyle

译者:Nalsi

————

Jenn Riley关于FRSAD的帖子提醒我我还没读过这份文件。Jenn对于这个模型有一些让人感兴趣的关注,我读完之后也做如是想。

FRSAD最让我担心的一件事就是,它似乎认为规范文档应该命名事物,我的意思是,规范文档应当为人类读者命名事物。FRSAD的介绍这样说:

规范控制的目的在于保证表现一个值(人名、地名或者主题术语)的一致性,我们把这些元素用作信息检索中的检索点。

接下来给出的例子是第二次世界大战,这个名称在出版物中有很多种不同的写法,但是LCSH的一条标目把这些写法都集合到一起。

我认为规范控制的目的在于解决概念或者事物的单一表现的问题。但是,这种表现的本质是非常重要的。你可以选择一种首要的显示方式来表现某个实体,但是你的元数据因此就有了一个致命的错误:只要现实的形式发生了变化,也就出现了一个不同的实体。在实践中,显示形式本身并不是一个持久的标识符。使用显示形式也让你的数据难以跨越语言和情境的障碍实现分享。在概念上,“World War II”和“Seconde Guerre mondiale”是一回事,但如果你用这两个名称来标识主题,它们简直就成了风马牛不相及。但是,如果这个主题有一个真正的标识符,一个独立于优先显示形式的标识符,我们就能够轻易地把它们聚集到一起了。

我有点奇怪,FRSAD委员会里竟然没有一个人能够在这项计划中引入标识符这个概念。因为这件事这么明显。每一个主题的实体一定要有一个标识符。这个标识符永远都是一样的,不管你选择怎样的显示形式。选择某种显示同样是为了满足特定的用户功能,不管你选择英文还是西班牙文,为了成年人还是儿童,用翻译的形式还是原文的形式,你都不会改变这个实体本身。

如果没有标识符,我们就没有办法把这个实体表现为元数据。作品和主题(Thema,是FRSAD对于主题的说法)如果没有机器可读的身份让它们成为现实,它们就根本没法在元数据里存在。这是语义网的基本规则,这也是一直以来用机器可读的方式使用元数据的事实。我们图书馆人费尽力气创造系统和程序,想要控制带有不同用户显示形式的标识符,这种方法不但令人沮丧,而且根本就是缘木求鱼。我们需要把FRSAD变为:

显示形式灵活多样,但是和指明元数据是关于什么的没有关系。显示形式是为了人类的,标识符是为了机器的。标识符也是中性的语言,有助于跨越语言和社区分享数据。真的,就是这么简单。

————

My note:我也还没读过FRSAD,不过印象里FRAD的实体里是有标识符,为什么FRSAD反而没有?奇怪……

 

关于FRBR中的作品集

William Denton报告了今年IFLA年会上和FRBR(我正在考虑我以后是不是要按照老外的读法来念这个词,虽然入乡随俗也不错)有关的内容。

今年Gordon Dunsire做的FRBR评论组的度报主要提到了两件事:申请FRBR的“名称空间”(namespace)作为后续开发利用的基础,以及VMFVocabulary Mapping Framework)对于FRBR的利用。

因为最近在写一篇该死的论文(似乎这篇文章我已经提到好多次了),所以一直在关注FRBR作品集工作组的动态。

根据William Denton的纪录去年的会议在三个原则之上确立了用来解释作品集的三种模型:整体部分模型(作品集是整体,单部作品是部分)、载体表现单个作品模型(作品集作为载体表现,包含了不同的作品)以及单个作品多个作品模型(作品集作为一个作品,包含了多个其他的单个作品)。然后第一个模型被否定了。

今年的会上提出了后两个模型的详细说明(载体表现多个内容表达模型以及作品多个模型),作者分别是ZumerTillett,比较模型之间差别很有趣。

我个人之前的想法是比较倾向于第一种模型的,也就是作品集是一个载体表现,其中包含了不同作品的内容表达,因为在第一组实体中,只有这两个实体之间的关系是“多对多”的。任何一个内容表达都只能实现一个作品,而且作品是不能归递(recursive)的——就是作品不能包含作品,虽然这件事我之前是没想过。

但是我读了Barbara Tillett对于第二种模型的解说,觉得这个说法在某些地方似乎也很有道理。虽然这个解释要把作品这个实体加上一个recursive的箭头(这个箭头在Tillett很多年前的ppt上就见到了),然后因为内容表达实现的是多部作品组成的一个作品,所以它也就是多部作品的实现,在我看来这也不符合FRBR的原意。但是FRBR5.3.1.1的原文确实是非常支持这种看法的:在作品内部存在整体/部分的关系。

当然相对来说,就像那个比较的表格的最后一栏所说,第一种模型无论如何是比较简单的,一方面不用创造出许多“作为作品集的作品”(因为显然作品集是一种比较重要的类型,根据估计,在Worldcat的数据库中,有多于一个内容表达的作品——也就是所谓的“复杂作品”——中有12%是作品集),另一方面也不用动用到整体/部分的关系来连接这些不同类型的作品。

Ps:作品集的聚合(aggregating)有三种情况:作品集(collection)、附加部分(augmentation)以及平行作品(parallel)。前两这可以大体等同于FRBR中所说的作品的“独立范畴”和“从属范畴”。根据FRBR评论组之前的决议(我不知道出处),在augmentation本身是看作主要作品的一个新的内容表达,而其所附加的部分要看作是一个独立作品(这个作品“没有必要单独识别”)的一个内容表达。第三个情况是比较少见而且还没有什么人关注过的一个问题。