设计 工具 系统 开发 安全 办公 陶吧 IT教育 Vista频道|Google Chrome 参与WS-AT全局事务
您现在的位置: 天极网 > 软件频道 > 设计在线 > 维基搜索 人与机器的智慧较量?
全文

维基搜索 人与机器的智慧较量?

2008-01-21 10:00作者:佚名出处:电脑报责任编辑:Shiny
  如果说维基百科(Wikipedia )是一场知识库建设的革命,那么由其创始人吉米•威尔斯在1 月7 日宣布上线的维基搜索(Wikiasari )将是一场搜索引擎的革命。和维基百科一样,维基搜索将通过把人类智慧引入搜索领域,发挥群众力量来为搜索技术带来重大革新。

   维基搜索_人与机器的智慧较量_天极设计在线转载

 

   维基搜索_人与机器的智慧较量_天极设计在线转载

  传统搜索存在固有技术缺陷

  以谷歌和百度等为代表的传统搜索引擎已经逐渐遇到了发展过程中难以逾越的瓶颈,因为它们的搜索底层的算法有着天然的缺陷。

  传统搜索引擎的基础技术,无论是谷歌的“Page Rank”,还是百度的“锚链”,其根本思想就是:通过在网络上抓取大量的网页进行快照分析,得出某些关键字链接到某些网页的概率。这种概率,反映了人们对某个关键字指向某些网页的兴趣的高低,从而决定了这些网页在搜索结果中的排序位置。举例来说,如果有大量的含有“电脑报”字样的链接是指向网页“www.cpcw.com”的,那么在人们搜索“电脑报”这个关键词的时候,“www.cpcw.com”这个搜索结果的排名就会非常靠前。

  这种思想基本上是正确的,这也是为什么传统搜索引擎会一时间大获成功。谷歌的Page Rank 数据表每更新一次,就要分析约80 亿张网页及其相互关系。如此海量的信息分析的需求,也带来了很多分析算法的实现与优化技术的革新。但是,由于这种思想有一个重要的假设前提,就是人们会在完全理想的情况下进行页面的制作,这与事实大相径庭。

  为了追求搜索结果排名靠前,人们想出了种种方法来欺瞒搜索引擎,比如人为制作大量的内含特定关键字导向某个所谓的“优化目标网页”,以使它的排名异常地提前。

  一个著名的案例就是一年多前,在谷歌上搜索 miserable failure (惨败)时,排名第一的网页居然成为美国总统乔治•布什的白宫页面,这显然是一伙美国恶搞青年所为。

  虽然后来谷歌纠正了这个特定的错误,但是此次恶搞的成功实施却提醒了人们有关传统搜索引擎的固有缺陷,从而很多“搜索引擎优化公司”纷纷诞生,它们的专业就是把关键字的概率尽可能调整到期望提前排名的网页上去。这样,我们现在在传统搜索引擎上搜索关键字的时候,尤其是一些商品的名字时,就很难说会得到一个比较客观公正的“民意结果”。大多数的时候,这个结果已经是被“优化”过的“商业结果”了,这无疑会大大降低搜索结果的质量。

  维基搜索:发动社区人的力量

  除了上面说的传统搜索引擎的固有缺陷以外,传统搜索引擎还有着不能识别搜索关键词的语义、对于像中文和日文这样的连续文字缺乏精准的分词技术等,总而言之,有两大问题:一个是机器就是机器,机器对于人类的语言的理解毕竟有限;一个是搜索结果究竟是怎么来的,搜索的人不知道,即使这个搜索的思路完全错了,人们也不能主动地纠正它。

  维基搜索恰恰是为解决这两大问题而设计的,它的每次搜索都是一次搜索质量提升的机会。首先,它为每条搜索结果都评定一个分数,点击这个分数,它就使用一种称为“nutch”的技术来详细地告诉你这个分数是怎么来的。目前,这个算法对于开发者而言,理解起来难度不算太高。而一个最重要的改变是,开发者第一次能够窥视到搜索引擎的内部机制,并通过开放式的编程接口来优化这个算法。这对于集结开发者的智慧到搜索引擎,是至关重要的。

  一个更加关键的变化是针对普通用户进行的,任何人都可以对搜索结果进行“评头论足”。对于每个关键字,人们都能够建立一个“迷你页”,这个页面是专门用来讨论这个关键字的信息的。

  可以说这是继承了维基传统的最核心的部分:比如对关键字“Bill Gates”,它的“迷你页”里就有可能建立起一个有关比尔•盖茨生平和最新活动的完整的、持续更新的词条。而这个词条由于任何人都可以编辑,它将是一个相对客观的内容,而且会对搜索结果产生很重大的影响。难怪吉米•威尔斯会说道:“任何个别的团体、组织和个体都无可避免地带有强烈的倾向性,而唯有公众是公平的,我们现在要把这种公平引入到搜索引擎中去。”

  维基百科的公正性维持主要是靠自觉,它在搜索引擎的“迷你页”编辑器上苦口婆心地劝说道:“万勿制造垃圾,否则你写下的网站将被长期列入黑名单,那会让你伤心良久。我们不愿意看到你伤心,所以,请勿制造垃圾。”

  随着时间的演化,去伪存真的工作就会被社区做到一个相当彻底的程度,那个时候搜索结果的优化也就完成了。这个工作当中,机器参与的工作变成了被动的,而人才是真正对关键字的搜索结果直接控制的力量。显然,人对语言的理解能力要大大强于机器,所以,维基搜索引擎可以说是被人类智慧武装起来的。随着时间的推移,它会变得越来越“聪明”。

  起步维艰,前途光明

  尽管维基搜索有着革新的思想,在起步的阶段它会遇到很大的困难。一个最重要的问题就是人力和计算机相比,计算的速度非常低,这会直接造成起步阶段的质量几乎为零的难题。而一个什么都搜不到的搜索引擎,普通用户是否有耐心持续关注呢?

  再者,即使社区的力量被充分地调动起来,它能够处理的网页谷歌等传统搜索引擎拥有的大型计算机集群相比,也仍然存在数量级的差距。据悉, 维基搜索的索引最初将仅包含5000 万到1 亿个网页,这和谷歌拥有可供分析的网页索引数是无法相提并论的。 吉米•威尔斯自己也坦言,短期内打败谷歌不是他的目标。

  但是,维基百科的成功还是给了人们以不小的信心。即使初始网页的数量上并不多,可是它的搜索质量如果足够好,对于搜索质量有要求的人还是会把维基搜索作为自己的选择之一。最重要的是,这种创新的模式可能会给人们带来高度个性化的搜索结果,这是谷歌非常难以做到的。

  并且,维基搜索不仅仅是网页的搜索,还包括一个照片和人物搜索,如果参与的社区人数达到一定数量,它就有可能以 Facebook 的模式成功。也就是说,和在互联网上盲目地搜索照片和人物相比,显然维基搜索中的人物更加真实和具体,这完全有可能成为一大搜索的特色,从而在这方面全方位地超越传统搜索引擎。

  当然,维基搜索如果过了一段时间,拥有了足够强大的社区参与的搜索结果优化的优势之后,它在一定人群中受欢迎的程度超过谷歌也并非没有可能。总而言之,维基搜索是否能够打败谷歌,这并不重要,但是它一定会有自己的特色,并有着自己的光明前途。

  (文章来自电脑报2008年第2期F版)

  如对于本文有任何疑问、意见以及建议,请在文章底部的留言板上留言。

  更多精彩,尽在天极设计在线 design.yesky.com!

电脑美术设计热门专区
电脑美术设计热门专区

设计软件视频教程大全
设计软件视频教程大全
设计软件经典教程
设计软件经典教程
设计人生——数码设计人访谈实录集
设计人生——数码设计人访谈实录集
·精彩设计作品展示
·精彩设计素材
·照片后期处理专区
·设计软件经典专题集粹

软件资讯·软件下载尽在天极软件

相关搜索:
关注此文读者还看过
热门关注
特别推荐
文章排行
本周
本月
最近更新
关于我们|About us|网站律师|天极服务|电子杂志|RSS订阅|加入我们|网站地图
TMG
Copyright (C) 1999-2009 Chinabyte.com, All Rights Reserved 版权所有 天极网络
商务联系、网站内容、合作建议:010-82657868
版权声明 在线提交意见反馈 渝ICP证B2-20030003号
经营性网站备案信息 网警备案 中国网站排名
天极传媒:天极网|比特网|IT专家网|IT商网|52PK游戏网|IT分众