碧城仙 发表于 2005-8-2 23:33:06

[转载]网络搜索引擎非万能

网络搜索引擎非万能

作者:王冲

  搜索引擎如同一个醉鬼在昏黄的街灯下找丢失的钥匙。他不知道钥匙是否丢在那里,也不奢望在那里找到——他在那里不停地找,只是因为那里光线更好。

  如同神秘莫测的宇宙,网络也充满了暗物质。天文学家告诉我们,即使用最先进的望远镜,也仅仅可以看见宇宙中不到25%的物质。同样,即使用功能特别强大的搜索引擎,网络上大部分内容仍然会漏掉。“隐形网络内容”不止数量庞大,其增长速度也远非“有形网络内容”所能比拟的。

  那么,到底什么是隐形网络内容呢?最简单的解释是,它是搜索引擎找不到,无法添加到网页索引的信息。这里的“信息”不是指垃圾邮件或者黄色网页,而是大量声名显赫的权威机构存储的海量信息。

  许多重要信息通过搜索引擎找不到,既有技术原因,也有经济利益方面的因素。搜索引擎一般都使用叫爬行者(crawlers)的软件来查找网页,增添到自己的目录上。但爬行者并不是特别聪明——它只能发现简单的文本为主的页面,通常不能发现以图片、声音或图象为主的页面。这些非文本页面成了庞大的隐形网络内容的一部分。

  另外有许多可以查找的页面,但是需求量相对小,不值得费这么大力气去拿来储存。比如说,许多学术论文以PDF格式存储,主要搜索引擎中,只有GOOGLE不厌其烦地列出目录,其他公司大都没有耗费精力搜寻。

  隐形内容的大部分以数据库形式存在于因特网的不同角落里,只可惜爬行者无法洞察。要想接入数据库,必须填写表格,申请得到想要的的内容。不幸的是,爬行者不会打字,无法填写表格。它一碰到数据库入口页面,就像一头撞上大门紧缩的图书馆,除了悄悄溜走无计可施。

  因特网上有成千上万个数据库,里面存贮的海量信息搜索引擎找不到只是暂时的。据英国《卫报》报道,目前,许多专家在研究搜寻数据库内容的新技术,但研究出来,麻烦更大。因为现在敲进一个关键词就会蹦出上百万的结果,真要尽数找出数据库内容,搜索引擎恐怕会不堪重负。

  那么,隐形内容多大,有形内容多大呢?google公司拥有全球最大的网页索引,可以提供14亿个页面,如果打印出来,高度可达185公里。Google没有列出所有页面,该公司人员估计,有形内容大概有2.4亿到亿个页面,目前以平均每天700万个页面的速度增长。

  上述数字和隐形内容的数量比起来,绝对是小巫见大巫。一家叫闪亮星球(brightplanet)的公司提供的研究表明,隐形内容是有形内容的400倍到550倍,大约有5000亿个文档。

  对此也有人提出质疑。举一个简单的例子,存储在数据库的卫星资料照片属于隐形内容,经过加工的纯文本文件属于有形内容,把它们放在一起,按照字节数比较显然不合适。实际上,页面这个概念本身就有待商榷。比如说,你敲入关键词后弹出的页面算吗?即使是静态页面,用纯文本格式、DOC格式和PDF格式的字节数也大相径庭。

  但无论如何,隐形内容的数量不可忽视,即使排除因数据类型和格式不同所造成的差异,隐形内容也至少是有形内容的50倍。

  两相比较的结果是,搜索引擎如同一个醉鬼在昏黄的街灯下找丢失的钥匙。他不知道钥匙是否丢在那里,也不奢望在那里找到——他在那里不停的找,只是因为那里光线更好。现实生活中,搜索引擎无论怎样努力,也总有大量信息漏网。

  那么,到底哪些信息搜索引擎找不到呢?这可太多了,有专利记录、电话簿、互动地图、航班抵达信息、股票价格、人口普查数据、当前新闻等等。要想知道什么东西可以搜索到,需要花许多时间来探索。

碧城仙 发表于 2005-8-2 23:34:13

正是因为目前的“网络搜索引擎非万能”,所以才激起无数的程序员及因特网数据搜索服务公司为之忘我的研究.......

wenmao 发表于 2005-8-10 15:12:45

左眼 发表于 2007-1-2 19:54:50

置頂

我推薦此篇文章置頂.

wls811217 发表于 2009-9-27 11:43:32

正是因为目前的“网络搜索引擎非万能”,所以才激起无数的程序员及因特网数据搜索服务公司为之忘我的研究.......

muclemanxb 发表于 2012-1-11 14:24:00

我靠~我以为我又WF了

个人角的,能不能有搜索搜索引擎的搜索引擎?是不是很拗口?就是专门索引搜索引擎的spider或者crawlers啊?

MoYaNG 发表于 2012-8-18 23:39:53

世上有什么是万能的呢

qa787 发表于 2012-9-13 10:49:36

页: [1]
查看完整版本: [转载]网络搜索引擎非万能

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~