找回密码
 新注册用户
搜索
查看: 3366|回复: 2

[讨论] anansi的项目意义何在?

[复制链接]
发表于 2009-11-16 05:36:00 | 显示全部楼层 |阅读模式
听说是中国人搞得项目,怎么也支持一下,于是加入了anansi,一个任务以后再接不到新任务,也扔在那没管。今天重置了一下项目,开始接任务了。好奇具体是做什么的。于是乎有以下研究
任务运行过程大概是这样的。
从服务器下载一个包,包的内容就仅仅是某一个网页地址,http://**的。
下载回来以后,开始访问此网页地址,储存此地址和此地址的http返回网页状态码(200,302,404,403之类的)到结果文件,解析收到的网页,并从头至尾访问网页上的每一个链接,同样储存http返回网页状态码,最终生成一个包含此地址的所有链接和链接的http返回网页状态码的文件并上传。
由于没有具体抓包,所以以上过程仅仅是根据访问地址,前后文件,作者的提问和项目简介做出的判断。
所以基本上是一个不耗cpu的程序。而任务的完成状态也只能有2个,0%和100%。因为无法判断访问一个网页的时间和网页上链接的多少,所以也就造成了有的仅几秒完成,有的等好几个小时。
研究过后我产生了以下疑问:
1,项目的意义何在?作者的叙述中仅仅是讲了一下项目的研究内容,但是实在想不出这样的爬虫的意义。
2,项目访问的网址来源于哪里?有什么规律?因为观察几个任务访问网页都是仅仅访问一层的,不再往下继续访问了。
3,积分问题,积分的授予是如何判断的?下载任务就给分还是如何。而且这种没有正确与否的运算结果提交上去,为什么还要pending?难道是几个人的结果还要做对比?这样对比的话又有何意义。
4,项目主程序问题。主程序采用.net编程,作者还搞了个还不错的图标,但是不知道为什么不把后缀写出来的。这个可能是小失误。
最后代作者回答版主一个问题。anansi是西非一个传说中的神。蜘蛛,但经常以人形出现,聪明狡猾。作者写的也是蜘蛛程序,于是用了这个名字。我认为。关于anansi的详解在维基,我就不废话了。
暂时想到这么多,先发出来讨论讨论吧

评分

参与人数 1基本分 +8 收起 理由
Youth + 8 我很赞同

查看全部评分

回复

使用道具 举报

发表于 2009-11-16 10:04:09 | 显示全部楼层
嗯,对项目提出疑问是很好的:)

之前没仔细去看过这个项目,反正感觉上还不太成熟。
回复

使用道具 举报

发表于 2009-11-16 21:55:58 | 显示全部楼层
呵呵,只是个无用的测试吧。

可以联系一下作者本人。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-5-24 00:52

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表