中国分布式计算论坛 » 网络类项目 » Majestic-12 - 因特网搜索引擎研究 - 项目介绍

2005-8-2 18:43 wenmao
Majestic-12 - 因特网搜索引擎研究 - 项目介绍

[url=http://www.majestic12.co.uk][img]http://www.majestic12.co.uk/images/mj12logo.png[/img][/url]

Majestic-12 is a distributed World Wide Web search engine. The project's client software application "crawls" websites to see which sites have changed their content, and updates a master search index.
Version 1.0.5 of the MJ12node client is available for Windows and Linux as of June 15, 2005. Windows users must have Microsoft .NET version 1.1 installed. Linux users must have Mono installed. Version 0.1.4 of the search engine is available as of July 14, 2005. An MJ12agent application is also available: it allows you to control an MJ12node client on a separate computer.

项目程序最新版本 1.24 [url]http://www.majestic12.co.uk/files/mj12node/mj12node_win32_v124.msi[/url]

项目统计 [url]http://www.majestic12.co.uk/projects/dsearch/stats.php[/url]

[[i] Last edited by wenmao on 2006-2-23 at 16:57 [/i]]

2005-8-2 22:49 碧城仙
Majestic-12 项目官方主页: [url]http://www.majestic12.co.uk[/url]

项目简要介绍如下:

Majestic-12 是一个基于分布式原理的万维网搜索引擎研究项目。项目的客户端使用一种类似“crawls”(爬行者)的技术监视指定的网站,以便及时的了解哪些站点的内容发生了改变,随后将更新一个存于项目服务器上的主要查寻索引文件。

该项目所使用的客户端名称为 MJ12node (又名:DSearch)。目前(2005年7月15日)已经推出了 Windows 版本和 Linux 版本,版本号为 1.0.5 。使用 Windows 版本的用户必须先安装 微软 .NET 1.1 版。Linux 版本的用户必须先安装 Mono。前一个在2005年7月14日发布的版本 0.1.4 版仍然可以继续使用。另外有一款辅助软件 MJ12agent ,可以允许您监视局域网内的其他安装有 MJ12node 的计算机上的客户端运行情况。

[b](翻译:碧城仙,中国分布式计算总站版权所有)[/b]

下面转一幅客户端运行界面截图:
[img]http://www.majestic12.co.uk/images/dsearch/screenshots/snap6.png[/img]

2005-8-2 22:56 equn
该项目人数稳定增加中。
[img]http://www.majestic12.co.uk/stats/allurls_by_day.php?w=300&h=160[/img]

好看的Scr。

[img]http://www.majestic12.co.uk/images/dsearch/screenshots/snap5.png[/img]

2005-8-2 23:02 碧城仙
Majestic-12 项目官方主页:[url]http://www.majestic12.co.uk[/url]
Majestic-12 项目官方论坛:[url]http://www.majestic12.co.uk/forum/[/url]

客户端下载页面:[url]http://www.majestic12.co.uk/projects/dsearch/download.php[/url]

Majestic-12 项目统计:[url]http://www.majestic12.co.uk/projects/dsearch/stats.php[/url]

目前该项目全世界只有 73 名志愿者参加,其中 0 位中国人.......

项目由英国伯明翰的一家因特网服务公司开发,创办人 Alex Chudnovsky 。

2005-8-2 23:08 碧城仙
关于“爬行者”的概念,可能很多朋友不熟悉....

Crawler 是搜索引擎用的网络爬行者,通过它们在 Web 上爬行,寻找超链接,抓取页面内容,为搜索引擎下一步索引工作做准备。

关于这种技术可以访问微软主页以了解更多深层次的知识,推荐阅读《解读Microsoft ·NET技术基础》。以下为部分内容转载:

网络爬行者可以访问一个已注册的 URL ,并且能够发现和索引网页上的文字。然而这种 "robots.txt" 方法, 决定于网络爬行者定位每个网站及网站上服务描述文件的能力。这种分布式方法具有升级潜力,但是缺少一种机制来保证服务描述文件格式的一致性以及跟踪它们所发生的变化的方便性。

2005-8-3 08:09 equn
[quote]引用 [i]碧城仙[/i] 在 2005-8-2 23:08 时的帖子:
关于“爬行者”的概念,可能很多朋友不熟悉....

Crawler 是搜索引擎用的网络爬行者,通过它们在 Web 上爬行,寻找超链接,抓取页面内容,为搜索引擎下一步索引工作做准备。

关于这种技术可以访问微软主页以 ... [/quote]

Baidu 的 Crawler 也称 Baidu Spider 吗?

2005-8-3 08:32 池龙
[quote]引用 [i]equn[/i] 在 2005-8-3 08:09 时的帖子:


Baidu 的 Crawler 也称 Baidu Spider 吗? [/quote]

应该是一样的东西,不过我似乎觉得叫Spider的多一些?

2005-11-23 01:25 lu_pp
下载量太大了
我家宽带有流量限制
不参加了

2006-4-16 21:22 watson_yan
有无中国的team?

2006-4-24 18:07 第三类接触
有个MJ@China,但是加不上。

2006-4-24 21:45 watson_yan
太占带宽了,电驴都没法下载了。不玩了。
人太少没有成就感

2006-6-10 22:44 roka
hehe

2007-3-31 13:11 bbrang
支持一下阿  很好

2007-8-26 21:21 cnchina
普通的家用寬帶能用么?有沒有哪位能夠提供點信息?還有,平時在使用時能不能掛成休息的?

2008-4-11 17:45 cnchina
今天加入了项目,开了一整个下午(从12点到现在5小时)(流量有点大。。快一G。。不过还好家里不限流量,但就路由有点烫)

把自己推到单天排名第73(估计还能往上爬):
[table=330][tr][td]#[/td][td]Nick[/td][td]URLs done[/td][td]Data (MB)[/td][/tr]
[tr][td]73[/td][td][url=http://www.majestic12.co.uk/projects/dsearch/userinfo.php?id=2354]EY[/url][/td][td]29,999[/td][td]648[/td][/tr][/table]把中国顶到单日27单月38(似乎就我一人?)
[table=300][tr][td]27[/td][td][img=24,16]http://www.majestic12.co.uk/images/flags/small/ch.gif[/img] China[/td][td]29,999[/td][td]648[/td][/tr][/table][table=300][tr][td]38[/td][td][img=24,16]http://www.majestic12.co.uk/images/flags/small/ch.gif[/img] China[/td][td]29,999[/td][td]648[/td][/tr][/table]
------
刚才回来才发现有Team China,加上我就3人。。。
[url=http://majestic12.kicks-ass.org/teams/team.jhh?teamid=102]http://majestic12.kicks-ass.org/teams/team.jhh?teamid=102[/url]

2008-4-11 18:04 cnchina
这个项目经试验,只占带宽,CPU占用几乎为0。(但如果不在参数设置中设置程序的优先度的话,在压缩时[虽然很长时间间隔才会有一次压缩],其它分布式程序如果在最低优先级会被暂缓;MJ12不在压缩结果时,其它分布式程序能够正常运作,速度不受影响)
我的计算机是windows 2000 sp4,2M宽带(限制MJ12流量占用在40%,能正常浏览网页)
从今天12:15分开启,开到发帖的18:00,占用的CPU时间加起来仅8分钟(主要用于压缩结果)。主程序底下会在后台打开一个iexplore.exe。两者占用内存共80MB。

按MJ12界面的统计数据看,6小时内,下载总量有1G整,上传总量已达24M。

----
改正上面一个错误:程序似乎不总在自己下面开一个IE线程(今天观察了一天都没有,难道昨天看错了?)。另外,压缩的工作是由MJ12bar.exe执行的,所以CPU时间应不止6分钟,但相对而言还是很短的。
今天还试了试,在开着MJ的时候使用QQ。我昨晚的时候把profile改了,我照样是2M的宽带,但我设到2M下路128K上路,每个限制80%。但今天在用的时候看它的图表,从来只有到1M的下传,上传时也只有几十K,可能是我网络比较慢吧,平时下载最快也就1M网速,也算极限了。开了QQ后使用没有影响,开视频时也没有停顿。关了QQ后查看图表,发现开视频的时间段内,MJ12的下载自动减少到200K左右。
[img]http://pic.yupoo.com/alpha1/19677563fe0d/8k7ykf62.jpg[/img]这是今天的图,从早上开到现在,下载了3G了[em02]

[[i] 本帖最后由 cnchina 于 2008-4-12 18:15 编辑 [/i]]

页: [1]


Powered by Discuz! Archiver 5.5.0  © 2001-2006 Comsenz Inc.