读书笔记:搜索引擎社会


Search Engine Society by Alexander Halavais

手头正好有这么一本书,所以拿来读了读。里面有一些蛮专业的内容(刚才才在某同学的提醒下意识到“iterative
development”是一个专业术语,迭代开发……),不过收获还是很大的。

 

这本书前两章简单介绍了一下搜索引擎运作的一般原理。当然它的大块内容还是要分析搜索引擎的社会方面的内容,比如它和民主的关系、和个人隐私的关系或者和国家政权的关系。贯穿这本书的一个核心的概念就是“社会”这个词,搜索引擎本来就是社会的产物,而且反过来它也进一步影响了这个社会,让我们变得越来越“社会化”。

 

所以是很有趣的一本书。

 

我的一个蛮大的收获就是从这本书里意识到了“信息生态环境”这个东西,以及为什么OPAC需要向搜索引擎看齐。

 

下面是我的一些读书笔记,有些内容记得很浅,而且可能会有我的理解错误。如果遇到错误盼望指出,如果遇到很浅的地方,大家一笑而过也就好了。


————



P7:普通的搜索称之为“水平搜索”,专业搜索称之为“垂直搜索”。

P10:搜索引擎是更大的信息生态系统的一部分,搜索引擎的发展在一定程度上得益于互联网的不断扩张(以及.com的泡沫)。图书馆曾经扮演了今天搜索引擎所扮演的的信息中介的角色(需要创建并维护元数据)。搜索引擎的另一个先驱就是近代官僚体制产生的大量档案文件。

P15:搜索引擎的基本结构:用crawler通过跟踪超链接获取URL(动态页面需要一些特殊的技术,而且有很多搜索引擎无法获取的“深层网络”deep web);获取关键词,制作索引(称为“indexer”);接受查询、处理查询并且提供反馈的界面。——好的搜索引擎应当能够预测用户的行为(比如提供动态的拼写建议)。

P21:因特网的第一个搜索引擎Archie出现在1990年,它出现在互联网之前,是一个基于FTP协议的搜索引擎。万维网时代的第一个搜索引擎是Wandex,这个搜索引擎是制作索引的开始,但它只能对页面的提名制作索引而且不支持超链接。1994年出现的WebCrawler是第一个可以对作品内容进行索引的搜索引擎。之后的搜索引擎面临的最大挑战就是互联网的规模不断变大,这对它们提出了技术上的挑战,以及越来越多的垃圾页面,但这时也开发出了一系列的新功能,比如根据主题对结果进行排序(语义网的前驱)。在1990年代中期,各地区的搜索引擎开始不断涌现。

P28:目前搜索引擎发展的几个趋势:专业化、多领域(分地区的搜索以及移动设备的搜索)、新技术。

P32:新的界面产生新的需求,所以不存在完美的界面。但是好的界面应该能够了解用户的意思,并且能够对不同的用户进行区分。

P36GuineeEagletonHall2003年研究了初中生在网络寻找信息的模式,他们定义了三种最常用的方法:“.com方式”、“购物中心”和“搜索引擎”。搜索者会在他们的搜索词后面直接加上“.com”,他们会在某些专门的网站寻求某些特定的信息,如果前两种都没用他们会使用搜索引擎。

P38Bernard Jenson2003年指出,在搜索引擎上使用复杂的搜索方式会取得更大的成功,但是基本上,使用这些复杂的运算方式是不值得的。而且实际上,绝大多数普通人都没有意识到比如布尔运算这样复杂的运算方式。绝大多数人都在搜索中使用多个检索词。

P40:一方面有大量的“深层网络”或者说“隐形网络”都是搜索引擎找不到的(有人估计这一部分占整个网络的80%,有人认为数量可能会更大——这一方面是因为不是所有的页面都在另外的网页上有超链接——P132:比如说国家政府的要求以及搜索引擎的算法,另一方面也是因为搜索引擎可能出于各种原因故意屏蔽了一些网页),另外一方面,现有网络中的绝大部分内容对于绝大部分用户来说都是没有兴趣的,所以一般用途的搜索引擎也没有必要为整个网络做索引。

P46:可以通过以下几种方式来收集用户的信息:网站的记录、脚本、cookie或者本机的记录。——或者通过一种视线跟踪的软件进行研究。在检索结果页,人们的视线一般集中在左上方的“金色三角”,对于第一个结果的注意力最强,以下的结果递减。而这种注意力的模式是一种习得的行为方式,在有经验的使用者身上更加明显。

P50:搜索引擎重新设计的方向:自动更正拼写错误、理解网络、对于移动设备的支持、支持个性化。

P58John
Perry Barlow
1996年起草了一个《电脑空间独立宣言》(Declaration of independence of
cyberspace

P60Zipf’s law:最常使用的英文单字(the)的出现频率是排名第二的单字(of)的二倍,of又是排名第三的单字出现频率的二倍。对于网络来说,最常被引用的超链接或者人们浏览最多的网页也大体遵循这个规则。The web picks winners.

P88:搜索引擎同时让我们变得更集中和更民主,也某个方面也就是所谓的Glocalization。一方面是网络的运作规律让比较少的内容更加可见,一方面搜索引擎的拼写自动更正的功能让我们的拼写方式变得越来越单一,再者搜索引擎也让我们的思维变得越来越简单。但是同时,搜索引擎也能够估计更多人的利益需求(长尾)。

P115:搜索引擎的道德底线:不做恶、尽可能多的公开秘密、博客(网络2.0的力量)。

P140:搜索引擎到来了“名声管理”的问题,我们成为social visible

P160:搜索行为在本意上就是一种社会的行为,但是搜索引擎现在变得越来越sociable,这个词更加强调合作以及互动。比如说现在搜索引擎越来越倚重于民俗分类法,或者用户添加的信息(collaborative filtering)。虽然搜索引擎不同于社会化的网站,但是它们扮演着相似的功能,就是把人们的注意力吸引到民众合作创建的内容上(比如说连接到用户之前不知道的网站)——进而成为一种永无止尽的社会化记忆。

P182:搜索引擎未来发展的方向:所有的事物要可以搜索,甚至是人的感觉、地理化和可视化,社会化和开放的搜索。

【翻译】什么是(FRBR的)作品

原文链接:http://kcoyle.blogspot.com/2009/08/what-is-frbr-work.html
原文作者:Karen Coyle

译者:Nalsi

————

“什么是作品”,这是人们经常讨论的一个问题。人们的回答通常要么是“作品”在哲学上的意涵,要么是隐含在这个概念中的内在的抽象性。非此即彼。

我最近在Futurelib wiki上闲逛(虽然有点晚了,但我在这里收集了我对于Martha
Yee
的文章的所有评论),看到了Kristin
Antelman
两年前的一个
有趣的评论

我知道这个问题完全不是FRBR社区的争论所在,但是作品和内容表达这两个抽象实体的名称属性一直让我不高兴。它看上去和抽象实体的精神南辕北辙,更不要说它在实践层面上难以操作(比如说丛编)。同一部作品的不同载体表现当然会有很多题名。图书馆可能想要选择其中一个用来表示“作品”的题名或者用来显示。作品和内容表达只需要标识符的属性,用于表示作品、责任者和主题。

RDA定义了作品题名和载体表现题名(就是所谓的正题名)。我曾经听过一种看法,存在两种截然不同的数据元素:载体表现的题名是从实物上转录的,是载体表现的具体实现的一部分;作品题名(称之为“统一题名”)把同一个作品的所有内容表达以及载体表现聚合起来。Kristin的评论让我再一次想起这个问题,而且我同意她的看法,作品没有题名这种东西。统一题名是作品的标识符,因为我们现在还使用题名这类东西来标识事物。但是FRBRRDA意识到,实体将会使用另一种标识符,它和我们过去使用的名称和题名的显示形式截然不同。

这种“没有题名”的解决方式解决了创造作品显示过程中一个根深蒂固的问题,尤其是在多语种的目录下。如果你遵照统一题名的概念,作品题名应当是初始语种的题名。也就是说我们应当把Война и мир当作是作品的题名,可是绝大多数人都只知道《战争与和平》。我们能够显示英文的题名,可是如果目录的使用者用的不是英语怎么办呢?如果一些读者只能看懂法文、土耳其文或者中文该怎么办呢?如果作品有一个标识符(只对机器处理有用,不是用来显示给人看的),你就能够让使用者选择他们想要用什么语言来显示作品。(显然,这样的选择现在还做不到)

所以我喜欢不给作品分配题名的做法,但是我必须承认,我越来越多的把作品看作是一个集合,也就是作品的载体表现组成的集合,而不把它看作是一个事物。属于同一部作品(使用作品的标识符)的任何一个载体表现的每一种资源都是作品集合的一部分,正是这个集合定义了作品。

作品的集合是不固定的——新的资源可以随时加入这个集合。因此,作品是自下而上被定义的,它的定义来自于集合的内容。集合中的各个部分有各自题名和主题,也就是说,这个作品同样有这些题名和主题。

这个解决方法还是要我们决定用什么来表现作品。我们是否显示和作品有关的主题词?读者评论和内容摘录呢?如果我们想要显示封面,你怎样在那么多的封面里选择?

这样做的一个好处是你可以根据情况选择不同的显示方法。公共图书馆可以在作品显示中直接告诉读者馆藏位置,特藏可以显示出现有版本的重要信息,社交网站可以列出拥有这个作品不同版本的用户名单。作品的概念变得更加流动并且富有延展性,在我看来,比起一个只有几个属性的固定的“作品”来说,这样做和事实更加接近。