​少数派搜索引擎

作者:陈赛

​少数派搜索引擎0

( Powerset 首席执行官巴尼·佩尔。Powerset 是一家将自然语言处理应用于搜索领域的初创公 )

Naver:随时调用“邻居”的智慧

“韩国人基本上不Google,他们Naver。”当搜索引擎最新的全球排名公布后,美国人开始以一种惊异的目光看待亚洲人的搜索习惯。中国的百度、韩国的Naver、俄国的Yandex,都在本地市场将Google甩在了后面。

在韩国市场,Naver占据了77%的市场份额,居于第二位的也是韩国本土门户Daum,占10.8%,雅虎占4.4%,而Google只有1.7%。Google在这里遭遇的不是技术问题,而是文化问题,尤其是语言。

韩国IT分析家Wayne Lee说:“无论Google的搜索引擎如何强大,它都是从既存的网络上搜索数据,但网络上根本没有足够可供搜索的韩文数据。”

1999年,Naver刚推出时候,面临的问题与Google一样——互联网上的韩文网站不到5万个。那时Naver看上去就像一个杂货店,但大部分货架是空的,直到2002年推出“知识IN”,成了它成功突围的关键。

​少数派搜索引擎1( 阿卡迪 Yandex网站的CEO Google目前在俄罗斯搜索市场上的份额是9%,落后于俄罗斯本地的搜索引擎Yandex,“不论是在线阅读陀思妥耶夫斯基还是找俄罗斯皮毛大衣,人们都会上Yandex”。 )

今天来看Naver的“知识IN”,一点都不难理解,因为“百度知道”也在做同样的事情,而且相当成功。以中国的人海战术,才两年时间,“百度知道”解决的问题数量已经超过了2000万个。“因为有了‘百度知道’的功能,更多人觉得百度比Google更懂中文。在Google里搜索,如果‘百度知道’里有的,Google中的结果往往列在第一位,有很高的用户黏性。”一位分析家说。

但在2002年,脱离Google只进行既存网页信息搜寻的模式,而凭空创造一个韩文数据库,依靠的又是无面目的大众,实在需要一点愚公移山的傻气和勇气。毕竟,那时Web 2.0还没出世呢。

​少数派搜索引擎2( Mahalo 网站的创始人贾森·卡拉卡尼斯  )

《纽约时报》上记载了一个关于Naver“知识IN”的小故事。7月4日,一个叫朴和然的女高中生,打算从釜山的巴士终点站去海鲜市场,她想知道最短的路线。她在Naver的“知识IN”上提问,很快就得到了答案:从哪里上车,在哪里转车,从哪个出站口出来,到海鲜市场大概需要多少时间,甚至还有一张手绘的简单地图。帮助她的是周英俊,一个素不相识的老伯,在海鲜市场附近卖彩票,那条路他已经走了几十年了。这位周老伯是Naver的“知识明星”之一,每天花3小时在Naver上回答别人的问题。3年来,他已经帮别人回答了2520个问题,大部分是关于釜山的交通路线。他的劳动没有为他带来任何收入,但他说,“帮人也会上瘾”。

Naver在韩文中是“邻居”的意思。Naver之所以成为这个国家的搜索之王,就因为在3000多万韩国网民(占韩国人口70%,而且绝大部分使用宽带网络)之间营造了“天涯若比邻”的亲切感。对韩国人来说,Naver不只是一个搜索信息的工具,而是一种切实的生活工具。他们可以在这里问一切问题,橘子吃多了会不会脸色发黄,哪家整容店最擅长整鼻子,哪里能买到好的墙纸,哪家银行的房屋贷款利息最低,什么药物能治疗偏头疼,朝鲜是不是在造核武器??而且,他们基本上没有失望过。或许这也说明了韩国人在生活方式上的趋同,他们很少有特别的怪癖。

​少数派搜索引擎3( ChaCha 的主要创始人和 CEO 斯库特·琼斯 )

据Naver官方表示,“知识IN”里的答案都具相当的水准,在准确性和自我监管上堪比维基百科。如果这话不属夸张,也许是因为韩国人天性里的认真劲,尤其是像周老伯那种“知识明星”,俨然以“意见领袖”自居,他们回答问题的态度非常严谨。

成千上万的朴和然与周老伯,平均每天在“知识IN”上提出4.4万个问题,得到11万个答案。经过5年时间,一个庞大的韩文数据库——“知识IN”建成了,累积了4.9亿个条目,这些用户生产的海量数据成了Naver搜索引擎数据库的主要内容。

​少数派搜索引擎4(  2006 年 4 月,Ask.com 首席执行官 Steve Berkowitz 跳槽到微软,担任 MSN 部门副总裁 )

比起Google高效率的机器算法,这种“人肉搜索”的方式固然原始,但一个人能解答另一个人的问题,这是数学方程式永远无法解决的。有时候,最笨的办法就是最聪明的办法。Yahoo就是在Naver之后开始在全球21个国家陆续推行“Q&A”服务的,包括英文版的Yahoo Answer。去年,Naver在本土最大的竞争对手Daum为了扩大市场份额,与韩国670万个“咖啡吧”合作。“咖啡吧”也是韩国互联网特色,并非物理意义上的网吧,而是以某种特殊兴趣联系在一起的网络社区,最大的“咖啡吧”有300多万会员。和“知识IN”一样,这些虚拟网吧累积了大量用户提供的韩文内容,使Daum的市场份额在两年内增加了30%。

除了“知识IN”之外,Naver还与内容提供商合作,搭建包括报纸、图书、电影、音乐在内的各种数据库,并将这些数据库与“知识IN”整合。这样,当用户输入一个关键词后,会依序出现该关键词在字典、博客、知识IN、Caf(社群)、专门数据、影像、书籍、最新新闻、网站、网页、图片、地区情报等多个Naver数据库内的相关信息。Naver将这种搜索技术称为“整合搜索”,它的独特之处在于,在Google机器算法的基础上加入了对用户搜索习惯的分析,并利用人力来监控关键词的使用趋势,以此决定搜索结果的排列顺序。每个数据库的搜索结果会根据个人用户在该数据库中的行为经验而随时调整排列顺序。

​少数派搜索引擎5( 卡伊·蒂钦 Mister wong的创始人 2006年,德国小伙子卡伊·蒂钦(Kai Tietjen)创办了Mister wong,这个搜索引擎让所有用户给他们自己喜欢的网站做书签,这些书签构成了搜索引擎的数据库。卡伊·蒂钦希望这个网站也能构成一个社区,用户可以和人分享自己最喜欢的网站并相互传递信息。 )

凭借“知识IN”与“整合搜索”两大法宝,Naver很快拿下了韩国搜索市场的半壁江山。之前,他们经过3年的辛苦挣扎,所得份额不过18.8%。《新闻周刊》报道说:“Naver是一个很好的案例,证明本土门户,尤其在非英语国家,利用本土文化与习惯,完全能够打败Google这样的巨人。”

ChaCha、Mahalo、Wikia:老把戏还是新希望?

​少数派搜索引擎6( 法国搜索引擎公司 Exalead 的创建者弗朗索瓦·布尔东克勒(左)和帕特里斯·伯汀 )

“谁也不可能再造一个Google出来。除非另辟蹊径,在Google的弱点里做新文章。”这几乎是所有新搜索引擎的共识。像Naver的“知识IN”,就是利用了Google在少数语种数据库上的弱点。Google在俄国遭遇滑铁卢,只占9%的市场份额,据说很大程度上也是因为俄语复杂的语法特点,名词有3种性别,6个变格。

开发者们还有另外一个共识: Google的IQ很高,但情商不够。它纯粹利用计算能力和机器算法,效率很高,而且愈发精确和广泛,但始终缺乏人味。更聪明的搜索引擎,应该像人一样,能准确理解每个关键词的意义,知道搜索者到底想要查什么,并迅速给出正确答案。

​少数派搜索引擎7( 马克·朱克伯格 Facebook首席执行官 10月30日,Google宣布发布一款名为OpenSocial的工具,该工具可以让软件开发商为各种支持该技术的社交网站编写程序。为构建社会化网络提供工具的提供商Ning的联合创始人马克·安德烈亚森(Marc Andreessen)说:“Google的计划是开放版的Facebook业务。” 据美国《商业周刊》报道,目前还不清楚,是否有足够的开发商青睐Google的新平台OpenSocial,不过,如果OpenSocial能够被广大开发商所接受,那么无疑将会对Facebook构成威胁。对Google来说,OpenSocial是其反击Facebook以及首要竞争对手微软计划的第一步,微软也于10月25日宣布对Facebook进行2.4亿美元的投资,以抗衡Google。此外,Facebook可能会进一步蚕食Google的地盘,Facebook首席执行官马克·朱克伯格在旧金山举行的Web 2.0会议上表示,Facebook对在线广告应用非常感兴趣。Facebook目前正在收集其5000万用户的社会联系方式、年龄、兴趣以及购买习惯等数据。在网络广告市场上,对用户进行准确分类是成功的关键,广告商非常在意网站所拥有的准确的用户信息。 )

也许是看到了维基百科、DIGG的“群体智慧”所爆发的惊人力量,很多风险投资开始重新估量“人”的作用。与天花乱坠的新搜索技术相比,他们更愿意将赌注压在混合型的搜索引擎研发上——利用人的智慧弥补机器算法的不足。这种搜索引擎有一个时髦的名字“社会型搜索”。ChaCha、Mahalo都是典型代表。

ChaCha是M.I.T.人工智能实验室的科学家斯库特·琼斯(Scott Jones)创办的。ChaCha的名字源于中文“查查”与拉丁文“舞会”,主页上赫然写着“搜索+人脑”,它聘了3万个活人向导帮你搜索。如果常规的搜索找不到你想要的东西,只要打开网站上的即时聊天窗口,就可以免费向任何一个向导提问,就像我们的114咨询台一样。这些向导以大学生、退休人士、住家父母为多,他们每小时赚5?10美元,大部分很有礼貌,也能准确理解你的意图,但用处有限。试了几个词条,感觉他们的搜索能力只是比一般人稍强一点,没准他们也是用的Google。像库特·琼斯所描述的那种“神奇时刻”——搜到筋疲力尽时,蓦然回首,ChaCha送你一个梦想中的答案——并不多。ChaCha的搜索模式大概更适合老人和小孩。不过,这种真人对话的搜索方式感觉不错,就像打咨询电话时,听到的是活泼的人声,而不是沉闷的机器留言。

​少数派搜索引擎8( 邦妮·布朗的故事 人们最近都熟悉了邦妮·布朗(Bonnie Brown)的故事,她1999年离婚,失业,然后在硅谷的一家小公司找到了一份零工,当按摩师,周薪450美元。这家公司当时有40名员工,她算是第41个人,因此拿到了她当时认为一文不值的股票期权。她5年后退休,将这些股票期权的大部分兑现。作为Google的第41名员工,布朗已执行和未执行的股票期权让她坐拥数百万美元。 这个发财故事的背景是Google如今2000亿美元的市值,但熟悉互联网的人认为,许多风光的网站都有可能迅速衰落,也许某个天才能打败Google。 )

Mahalo是夏威夷语,意思是“你好”。不少投资人和技术专家看好Mahalo,因为它的主人是Weblog的创始人贾森·卡拉卡尼斯(Jason Calacanis)。此人在硅谷很有些名气,又喜欢折腾。他把Weblog卖给AOL后,加入了AOL。他对搜索技术并不熟悉,但他发现AOL搜索引擎很有问题——在关键词与搜索结果之间有太多的“赞助链接”,虽然赚得一时的钱,但最终是自绝于用户。

贾森关于搜索引擎的灵感来自于他的新婚妻子。她在给亲友的一封邮件里将婚礼的日程排列得井井有条,哪里玩、哪里住宿、做些什么??整洁而充实。他想,为什么搜索引擎不能这样排列信息呢?

​少数派搜索引擎9( Anurag Dod 2006年10月12日,创始人Anurag Dod宣布推出印度搜索引擎Guruji.com,Guruji是梵语中“教师”的意思。他们认为,互联网上90%的搜索都与本地市场有关,因此该网站将聚焦于印度本地内容。  )

他的计划很取巧——他要创建一个人力搜索引擎,但只对30%最流行的关键词(约1.5万个)编排搜索结果。也就是说,Mahalo只会为“帕里斯·希尔顿”、“比尔·盖茨”、“iPod”提供“最人性化的”搜索结果,但不会为你搜索某个高中篮球队或者你的小学老师。他没兴趣做“长尾”,只对搜索市场中利润最丰厚的部分感兴趣。当然,如果有人非要在Mahalo搜索小众词,它会自动返回Google的搜索结果。贾森说,“这是利用Google来对付Google”。

Google的背后有20万台服务器,1万名雇员。Mahalo目前只有20台服务器,60名员工。他们每天坐在电脑前一个一个关键词地编排搜索结果。做单个网页的链接索引可能就要好几个小时,如果这个关键词足够复杂。不同于ChaCha的业余向导,Mahalo的编辑们个个都是专业人员,不大得意的小说家、编剧、歌手、艺术家、演员,享受3.5万美元的年薪。“我不担心编辑成本,就像Google不担心服务器成本。”贾森计算过,Google每年每台服务器的维修费用在4000美元。维护几台服务器的钱,足够让一个人安心坐下来,每年编写500个关键词搜索结果,100人一年就是5万个,他计划在2008年做到2.5万个。

Google的一位工程师嘲笑Mahalo根本连“搜索引擎”都算不上,充其量不过是个人工编绘的网页目录。10年前Ask jeeves的老把戏,ask.com早已弃之如敝屣。Yahoo的人工目录从来没能积累人气,微软也早已放弃了利用人力来编辑搜索结果。“何必搞什么Mahalo,直接去维基百科不就得了?”

其实,维基百科的创始人吉米·威尔士(Jimmy Wales)何尝没有挑战Google的计划?他从3月初一直在鼓吹一款“开源搜索引擎”——Wikia,与维基百科一样采用“任何人可以编辑”的运作模式,计划由2000多个社区共同维护。他的观点也是“单纯依靠数学公式无法产生始终相关的搜索结果,人类的智慧将成为搜索的重要组成部分”。Wikia已经得到了1400万美元的融资,公开版本将在年底推出。■

有趣的搜索引擎

Stumbleupon:“发现”的意外之喜

作为一个搜索引擎,ChaCha、Mahalo的问题多多,最麻烦是它们没有足够的用户基数。很难说服人们从Google转移到这些名字古怪的小众引擎上。对很多人来说,不用Google,就像戒烟一样别扭。

Stumbleupon想到了一个更聪明的办法——将社区意见融入主流搜索引擎。人们不需要转载什么新的搜索引擎,只要下载Stumbleupon工具条,每当你在Google/Yahoo等主流引擎内搜索时,搜索结果后面会自动加入你的朋友或与你兴趣相似的人对这个搜索结果的评价排名。

Stumbleupon是一个浏览器的工具条插件——下载这个工具条后,你会不断“碰到”符合你的兴趣品位的好玩网站,因为Stumbleupon“推荐”一个网站的标准是你的朋友或与你兴趣相似的人对它的评价和排名。这个工具条曾被《时代》杂志评为年度最酷的网络产品之一。

Stumbleupon是这样一个奇特的混血儿:一部分是人为选择的网站,一部分是搜索引擎(上千万的页面推荐,经过了Stumbler的索引和分类),一部分是社交书签服务。正如它的创始人所说,“在Google搜索,你一般很清楚自己要找什么,但Stumbleupon却是为了给你意外之喜的”。

370万的既有用户群,1300万网页排序,加上新东家eBay的支持——eBay正在尝试将Stumbleupon的技术整合到它的在线拍卖业务与电子商务中。可以预见,Stumbleupon有机会从一个纯粹的娱乐工具变成强大的商业工具。

Yubnub.org:Google助推器

Yubnub是一个类似“DOS命令行”的搜索引擎,但使用起来又酷又简单。每个主流引擎被编成一个特定的代码,Google News(gnews)、Wikipedia(wp)、IMDB(imdb)、Slashdot (/)、Digg (digg)、Dictionary.com (d)??在这个代码后面输入你要搜索的内容即可。比如你要搜索克林顿的图片,只要输入“gim Bill Clinton”,就会自动转到Google的搜索页面。它不求取代Google,而是甘心做Google、Yahoo等主流搜索引擎的助推器,使搜索变得更加方便。

Yubnub是开源的,任何人都可以在这里自行编写和修改搜索代码。成千上万的代码让你看到搜索的无限可能性:esv代表你要搜索的是标准英语版《圣经》里的章节;在一个方程式前面加fooplot,会自动制成图表;最酷的命令是mash,可以进行多窗口多媒体搜索——你想在Google images、Yahoo!Images和Flickr里同时搜索鸟类图片,只要输入“mash birds gim yim flk”,屏幕就会分成3个,同时列出3个网站的搜索结果。

Hakia:自然语言搜索

让计算机理解自然语言,听起来仍是一件遥不可及的事。Hakia的宣传语是“Search for meaning”,即搜索意义。也就是说,除了可以搜索关键词、短语之外,还能按句子进行搜索。

我们习惯使用关键词搜索,但关键词并不能真正表达我们的想法。Google以热度(Popularity)为搜索结果排名,其实并没有真正理解每个页面的内容。所以搜索时常常会搜出大量的垃圾信息。Hakia号称突破了传统的索引方式,采用了一种叫QDEX的语意分析系统,能进行“意义对意义”的搜索,比如,如果你搜索“what drug treats a headache”(什么药治疗头疼),Hakia会处理词语之间的语意关系,推论你真正想知道的是“what medicine relieves migraines”(什么药物缓解偏头疼)。通过这种语意分析的过程,能提高搜索的相关性和交互性,找到对用户来说最有用的信息。在传统搜索引擎,这些信息很可能被忽略掉或者埋葬在信息的海洋里。

最近,Hakia还在自己的搜索引擎中引入了社交网络的概念。它提供了一个聊天窗口“Meet Others”,你能通过这个窗口直接联系到与你搜索过相似内容的人(Email/MSN/Skype)。

Powerset是另外一个号称“自然语言搜索”的智能搜索引擎,虽然正式产品还没有推出来,但已经成为硅谷最热门的创业公司。他们从Google挖了一批重要工程师,并从施乐获得了高级语言技术授权。据他们自己的宣传,Google的关键字搜索和PageRank排名算法已经过时了,Powerset将在搜索的内容分析技术和信任测量机制方面有新的突破,“以语言的方式阅读网页,并排列搜索结果”。更高明的是,他们准备将全球的开源程序员引入到引擎的整个开发过程。

Divespots:一个人的搜索引擎

拉尔夫·菲奥(Ralph Fiol)住在迈阿密,今年40岁,超级喜欢潜水探险。多年来他一直有个心事:找不到好的地方潜水。对他这种潜水迷来说,失事坠海的飞机或者轮船残骸是潜水最好玩的地方。

于是,他决定自己解决这个问题。他仔细调查了迈阿密附近可以潜水的废弃轮船遗址,把这些数据输入到Google Earth和其他在线地图工具。因为他有网站开发的专业背景,就自己开发了一个很酷的小工具,可以测量一个残骸与另一个残骸之间的距离。他在网上贴了附近的小旅馆等信息,在他玩过的所有地方写评论、贴照片,并邀请其他爱好者一起上传潜水日志和照片。他还通过RSS订阅,将他认为全世界最好的潜水网站连接起来,组成一个高度专业化的数据库。

这个手制的、高度专业化的小搜索引擎,使用的搜索技术很简单,但对潜水迷来说,比Google上能搜到的一切信息都更有用。目前,Divespots有3万注册用户,月访问量21万,广告利润至少6位数。

Quintura:标签云

Quintura以简洁而有趣的图形化界面取胜。每次针对一个或多个关键字,你都可以在左边找到与之有关的关键字,共同组成“标签云”的形态。删减这些关键字,就可以比较准确地锁定你所需要的结果了。■ 网站关键词搜索引擎目录搜索引擎关键词分类少数派

经典小说推荐

杂志订阅