Nalsi的九月上海游记. Part 1, “云计算与图书馆”

乘坐D321,早上大概730到达上海站。下了火车,发现天很热。

乘地铁1号线换5号线到东川路站。下车的时候已经接近845。在地铁站打一辆车,到上交大的南门。表上是9块钱,可是我身上没有零钱,所以给了司机一张100,他把所有零钱都给了我,数了数,是85块。走进学校一打听才知道这个学校里有两个图书馆,后来经过很大一番周折(此处郑重感谢顾晓光同学),迟到了几分钟终于找到盖得很华丽的交大图书馆。

走进会场发现会还没有开始(几位专家堵车了)。第一眼就看到了传说中的(因为我开始关注图书馆博客的时候,老槐已经停博了)老槐范老师,然后又相继看到Keven和精灵老师,很激动。

然后会议开始。馆长致辞,忽略不谈。

第一个presentation是上交大的李明禄老师,他从一个比较一般的角度介绍了云计算带来的机遇和挑战。

然后迟到的李国新老师补充了一个致辞。他提到云计算如何能够有助于共享工程,这个问题在一天会议的最后又被重新提起。

第二个主讲人是孙卫老师,这一场给我留下了最深的印象。一件事情就是精灵老师的博客里面也提到的:互联网是天,天上的一组一组的应用就是云这个比喻。他另外一个让我印象深刻的看法就是,他义正辞严的表示:私有云不算云。(而且他还反复提到图书馆应该提高效率,重视节能)

第三个主讲人是Calis的总工程师王文清。对于我来说,他的内容过于细节了,而且口音也实在太重,所以听得比较离散。

下午回来之后是胡老师的云计算@图书馆,这个presentation秉持了她一贯的高水准和个人风格。里面介绍了很多云计算的实例(虽然其中一些可能会有人觉得不是云计算——想到,对于我来说,李明禄老师把邮件服务或者搜索引擎也算作云计算虽然可以接受,但总是怪怪的),而且惭愧的发现其中很多实例我都没听说过。

最后一个主题发言是自称“为了搞活气氛”的赵亮老师。这是很棒的一个ppt,提出了一些总体上的问题。

在后面的自由讨论时间,我对于范老师的一个看法记忆犹新,就是说云不是用于大型图书馆的,应该用在基层的图书馆(比如乡镇图书馆或者中小学图书馆——下午一开始,他在李文清老师的发言之后就提到了这个问题,他问Calis是不是有计划把他们的服务覆盖到中小学图书馆)。这种“图书馆不应该单纯为技术而技术”的态度让我很赞叹。

 

 

关于我的立场。在不那么技术的角度,我是带着一颗追星族的心走进会场的,能够听到精灵、老槐、Keven或者萧德洪馆长这些大名字的意见并且见到他们本人是非常让人激动的。(当然,后来发生了更让我激动的事情……)

在专业的方面,我的立场可以归纳为“在北京市公共图书馆领域的、支持技术的从业者”的立场。一方面,会上谈到的地点包括上海、苏州、厦门、重庆,北京公共图书馆在图书馆技术方面的缺失是非常让我遗憾的,虽然这件事本身也需要我以及我的同事们的不懈努力。另一方面,就像老槐所说,技术是为了让图书馆改进服务的。在云计算这个问题上,对于我来说,中国的图书馆谈论云计算(当然除了最基本的应用层面,也就是孙卫老师所说的D层之外)基本上还是纸上谈兵(虽然理念先行也是我赞同的一个看法,但是对于总体环境来说,还是实例更有说服力)。我个人当然无限期待能够开发出具体的实例,或者是对外国实例的译介。

在会议即将结束的时候,我有另外一个困惑,就是云计算是什么。在自由发言的时候我感觉尤甚,人们在谈论的“云计算”可能是不同的事情。显然云计算存在着不同的层次(Iaas/Paas/SaaS或者孙卫老师区分的四个云层),对于当前的图书馆来说,进行一些最基本的应用应该是不难的,而且实际上随着越来越多的图书馆开展2.0的服务,他们自然也越来越多地涉及到云计算的应用(即便是不经意的)。但是真正比较困难的是更高层次的内容,比如图书馆是否应该搭建云,或者图书馆是否应该把自己整体的系统/数据放在云端。

参见:

编目精灵:云计算与图书馆”会议参会

西望图腾:上海参会记(六):上海交大云计算会

数图研究笔记:云计算与图书馆会议落幕

iLab与图书馆会议纪要

本次会议的PPT:http://it4l.dlresearch.cn/node/124

豆瓣启用“版本”功能

长久以来我一直觉得豆瓣虽然是一个非常好的2.0网站(当然最近或许也没那么好,在压制言论这个问题上),但是书目的功能上做得还蛮糟糕的,尤其是它没有区分所谓的FRBR的第一组实体。

刚刚收到豆瓣的系统消息,它开始启用作品版本这个概念了,当然现在还只限于图书:

亲爱的Nalsi:

图书版本功能已经上线。现在你能在某些图书的右侧看到它的其他版本,比如这本《朝花夕拾》右侧
http://www.douban.com/subject/1449352/

图书版本上线之后,同一作品的其他版本就不会重复出现在推荐里了。不同版本的图书还会有一个作品页面(
比如红楼梦
http://www.douban.com/book/works/1001757),方便书虫们比较各个版本的好坏。

我们知道你在读书方面有浓厚的兴趣,欢迎你帮助我们更新版本信息。如果你知道某些版本信息,可以去该本图书的“增改描述、封面图片”内的“添加其他版本”进行添加。在既有的作品页面,你也可以添加、报错或者删掉某些错误版本。

更多版本信息请访问 http://www.douban.com/help/subject#t5-q0

欢迎你为图书版本信息添砖加瓦。

目前主要的改动主要表现在:1、作品页的“其他版本”的提示(如上);2、在豆瓣主页不再推荐同一作品的不同版本;3、作品页面(如上)——但是目前只有多版本的作品才有这个页面

而且在搜索图书的时候,同一部作品的不同版本仍然会同时出现在搜索结果里。

作为我个人,当然很期待豆瓣有一天能完全实现FRBR化(我当然是说最狭义的FRBR化,也就是说,变成语义网络中的真正的“书目世界”),很期待。

关于FRBR中的作品集

William Denton报告了今年IFLA年会上和FRBR(我正在考虑我以后是不是要按照老外的读法来念这个词,虽然入乡随俗也不错)有关的内容。

今年Gordon Dunsire做的FRBR评论组的度报主要提到了两件事:申请FRBR的“名称空间”(namespace)作为后续开发利用的基础,以及VMFVocabulary Mapping Framework)对于FRBR的利用。

因为最近在写一篇该死的论文(似乎这篇文章我已经提到好多次了),所以一直在关注FRBR作品集工作组的动态。

根据William Denton的纪录去年的会议在三个原则之上确立了用来解释作品集的三种模型:整体部分模型(作品集是整体,单部作品是部分)、载体表现单个作品模型(作品集作为载体表现,包含了不同的作品)以及单个作品多个作品模型(作品集作为一个作品,包含了多个其他的单个作品)。然后第一个模型被否定了。

今年的会上提出了后两个模型的详细说明(载体表现多个内容表达模型以及作品多个模型),作者分别是ZumerTillett,比较模型之间差别很有趣。

我个人之前的想法是比较倾向于第一种模型的,也就是作品集是一个载体表现,其中包含了不同作品的内容表达,因为在第一组实体中,只有这两个实体之间的关系是“多对多”的。任何一个内容表达都只能实现一个作品,而且作品是不能归递(recursive)的——就是作品不能包含作品,虽然这件事我之前是没想过。

但是我读了Barbara Tillett对于第二种模型的解说,觉得这个说法在某些地方似乎也很有道理。虽然这个解释要把作品这个实体加上一个recursive的箭头(这个箭头在Tillett很多年前的ppt上就见到了),然后因为内容表达实现的是多部作品组成的一个作品,所以它也就是多部作品的实现,在我看来这也不符合FRBR的原意。但是FRBR5.3.1.1的原文确实是非常支持这种看法的:在作品内部存在整体/部分的关系。

当然相对来说,就像那个比较的表格的最后一栏所说,第一种模型无论如何是比较简单的,一方面不用创造出许多“作为作品集的作品”(因为显然作品集是一种比较重要的类型,根据估计,在Worldcat的数据库中,有多于一个内容表达的作品——也就是所谓的“复杂作品”——中有12%是作品集),另一方面也不用动用到整体/部分的关系来连接这些不同类型的作品。

Ps:作品集的聚合(aggregating)有三种情况:作品集(collection)、附加部分(augmentation)以及平行作品(parallel)。前两这可以大体等同于FRBR中所说的作品的“独立范畴”和“从属范畴”。根据FRBR评论组之前的决议(我不知道出处),在augmentation本身是看作主要作品的一个新的内容表达,而其所附加的部分要看作是一个独立作品(这个作品“没有必要单独识别”)的一个内容表达。第三个情况是比较少见而且还没有什么人关注过的一个问题。

图书馆OPAC用户调查一则

王绍平;
汤莉华:
OPACvs搜索引擎——从上海交大看我国高校师生的信息获取行为.
大学图书馆情报学刊 2008(1)

材料收集:2006年10-12月,图书馆主页,上海交通大学的学生以及老师273人

收集资料的途径绝大多数人通过网络查找图书馆数字资源(49.8%)或者通过搜索引擎查找网络资源(39.9%),很少人直接去图书馆索取资源。(读者追求省力)

使用OPAC的频率(标准是什么?):经常使用(61.5%)、偶尔使用(26%)

检索途径(可多选):题名(89%)、著者(41.4%)、主题词(37.7%),其余都不足5%

OPAC是否能满足需求:总是(5.5%)、经常(69.2%)、偶尔(23.8%)、从来没有(1.5%)
搜索引擎是否能满足需求
总是(12.1%)、经常(60.8%)、偶尔(26.7%)、从来没有(0.4%)

图书馆相对于搜索引擎的优势专业资料的集中(65.9),其余资料丰富、检索获取方便、资料组织有序都在10%左右

对搜索引擎命中无用资料的容忍程度:能容忍(48.4%)、不能容忍(51.6%)

OPAC的便利程度方便(100%)、不方面运行速度慢、不方便途径检索设置不合理

————

这个调查的结果自然无可怀疑,但是我觉得这个结果产生的原因还是挺值得考虑的。

比如,在绝大多数人都不通过OPAC来检索资源的时候,得出绝大多数人都经常使用OPAC的结论是否有意义?

另外,我很难相信所有人都认为OPAC是便利的,或者最多只能说明,关注图书馆首页的人,而且愿意在图书馆首页上作这个调查的人(毕竟总数只有200多个人)确实这么觉得也说不定。

搜索引擎和OPAC满意度的对照很有意思,在将近三年前,这出这个结论也不算令人吃惊,但是现在呢?

这个结果可能完全没有典型意义就在于,这是一个在大学内进行的、而且完全是用户主动才能参与的调查。当然这只是我的推测,毕竟没见过更多的国内的用户调查。