读书笔记:搜索引擎社会


Search Engine Society by Alexander Halavais

手头正好有这么一本书,所以拿来读了读。里面有一些蛮专业的内容(刚才才在某同学的提醒下意识到“iterative
development”是一个专业术语,迭代开发……),不过收获还是很大的。

 

这本书前两章简单介绍了一下搜索引擎运作的一般原理。当然它的大块内容还是要分析搜索引擎的社会方面的内容,比如它和民主的关系、和个人隐私的关系或者和国家政权的关系。贯穿这本书的一个核心的概念就是“社会”这个词,搜索引擎本来就是社会的产物,而且反过来它也进一步影响了这个社会,让我们变得越来越“社会化”。

 

所以是很有趣的一本书。

 

我的一个蛮大的收获就是从这本书里意识到了“信息生态环境”这个东西,以及为什么OPAC需要向搜索引擎看齐。

 

下面是我的一些读书笔记,有些内容记得很浅,而且可能会有我的理解错误。如果遇到错误盼望指出,如果遇到很浅的地方,大家一笑而过也就好了。


————



P7:普通的搜索称之为“水平搜索”,专业搜索称之为“垂直搜索”。

P10:搜索引擎是更大的信息生态系统的一部分,搜索引擎的发展在一定程度上得益于互联网的不断扩张(以及.com的泡沫)。图书馆曾经扮演了今天搜索引擎所扮演的的信息中介的角色(需要创建并维护元数据)。搜索引擎的另一个先驱就是近代官僚体制产生的大量档案文件。

P15:搜索引擎的基本结构:用crawler通过跟踪超链接获取URL(动态页面需要一些特殊的技术,而且有很多搜索引擎无法获取的“深层网络”deep web);获取关键词,制作索引(称为“indexer”);接受查询、处理查询并且提供反馈的界面。——好的搜索引擎应当能够预测用户的行为(比如提供动态的拼写建议)。

P21:因特网的第一个搜索引擎Archie出现在1990年,它出现在互联网之前,是一个基于FTP协议的搜索引擎。万维网时代的第一个搜索引擎是Wandex,这个搜索引擎是制作索引的开始,但它只能对页面的提名制作索引而且不支持超链接。1994年出现的WebCrawler是第一个可以对作品内容进行索引的搜索引擎。之后的搜索引擎面临的最大挑战就是互联网的规模不断变大,这对它们提出了技术上的挑战,以及越来越多的垃圾页面,但这时也开发出了一系列的新功能,比如根据主题对结果进行排序(语义网的前驱)。在1990年代中期,各地区的搜索引擎开始不断涌现。

P28:目前搜索引擎发展的几个趋势:专业化、多领域(分地区的搜索以及移动设备的搜索)、新技术。

P32:新的界面产生新的需求,所以不存在完美的界面。但是好的界面应该能够了解用户的意思,并且能够对不同的用户进行区分。

P36GuineeEagletonHall2003年研究了初中生在网络寻找信息的模式,他们定义了三种最常用的方法:“.com方式”、“购物中心”和“搜索引擎”。搜索者会在他们的搜索词后面直接加上“.com”,他们会在某些专门的网站寻求某些特定的信息,如果前两种都没用他们会使用搜索引擎。

P38Bernard Jenson2003年指出,在搜索引擎上使用复杂的搜索方式会取得更大的成功,但是基本上,使用这些复杂的运算方式是不值得的。而且实际上,绝大多数普通人都没有意识到比如布尔运算这样复杂的运算方式。绝大多数人都在搜索中使用多个检索词。

P40:一方面有大量的“深层网络”或者说“隐形网络”都是搜索引擎找不到的(有人估计这一部分占整个网络的80%,有人认为数量可能会更大——这一方面是因为不是所有的页面都在另外的网页上有超链接——P132:比如说国家政府的要求以及搜索引擎的算法,另一方面也是因为搜索引擎可能出于各种原因故意屏蔽了一些网页),另外一方面,现有网络中的绝大部分内容对于绝大部分用户来说都是没有兴趣的,所以一般用途的搜索引擎也没有必要为整个网络做索引。

P46:可以通过以下几种方式来收集用户的信息:网站的记录、脚本、cookie或者本机的记录。——或者通过一种视线跟踪的软件进行研究。在检索结果页,人们的视线一般集中在左上方的“金色三角”,对于第一个结果的注意力最强,以下的结果递减。而这种注意力的模式是一种习得的行为方式,在有经验的使用者身上更加明显。

P50:搜索引擎重新设计的方向:自动更正拼写错误、理解网络、对于移动设备的支持、支持个性化。

P58John
Perry Barlow
1996年起草了一个《电脑空间独立宣言》(Declaration of independence of
cyberspace

P60Zipf’s law:最常使用的英文单字(the)的出现频率是排名第二的单字(of)的二倍,of又是排名第三的单字出现频率的二倍。对于网络来说,最常被引用的超链接或者人们浏览最多的网页也大体遵循这个规则。The web picks winners.

P88:搜索引擎同时让我们变得更集中和更民主,也某个方面也就是所谓的Glocalization。一方面是网络的运作规律让比较少的内容更加可见,一方面搜索引擎的拼写自动更正的功能让我们的拼写方式变得越来越单一,再者搜索引擎也让我们的思维变得越来越简单。但是同时,搜索引擎也能够估计更多人的利益需求(长尾)。

P115:搜索引擎的道德底线:不做恶、尽可能多的公开秘密、博客(网络2.0的力量)。

P140:搜索引擎到来了“名声管理”的问题,我们成为social visible

P160:搜索行为在本意上就是一种社会的行为,但是搜索引擎现在变得越来越sociable,这个词更加强调合作以及互动。比如说现在搜索引擎越来越倚重于民俗分类法,或者用户添加的信息(collaborative filtering)。虽然搜索引擎不同于社会化的网站,但是它们扮演着相似的功能,就是把人们的注意力吸引到民众合作创建的内容上(比如说连接到用户之前不知道的网站)——进而成为一种永无止尽的社会化记忆。

P182:搜索引擎未来发展的方向:所有的事物要可以搜索,甚至是人的感觉、地理化和可视化,社会化和开放的搜索。