中国分布式计算论坛

 找回密码
 新注册用户
搜索
查看: 40539|回复: 28

[推荐]分布式相关网文

[复制链接]
发表于 2004-3-28 00:00:00 | 显示全部楼层 |阅读模式
分布式计算与中国(equn原创)
http://www.equn.com/forum/viewthread.php?tid=487

如何架构高性价比的分布式计算机集群(转贴)
http://www.equn.com/forum/viewthread.php?tid=697

百万个人电脑投入破解科学难题(转贴)
http://www.equn.com/forum/viewthread.php?tid=1467

[转帖]33万电脑高手斗法超级密匙
http://www.equn.com/forum/viewthread.php?tid=1478
 楼主| 发表于 2004-3-28 00:00:00 | 显示全部楼层 |阅读模式
计算机在药物虚拟筛选中的应用
http://www.windrug.com/pic/20/20/11/407.htm

让你的计算机做义工 加入防癌研究计划
http://gb.ettoday.com.tw:6060/2002/07/15/752-1328091.htm

网格计算对抗SARS
http://www.shangdixili.com/d2ol-cn.html

十万美元的悬赏——互联网梅森素数大搜索
http://www.oursci.org/ency/math/027.htm

迅集计算挑战传统超级电脑
http://blogs.51.net/archives/000651.html

网格计算的威力
http://www.chinabyte.com/ColumnA ... 30603/1704804.shtml

探密网格计算:一场雄心勃勃“标准之争”
http://past.people.com.cn/GB/it/53/305/20030605/1009305.html

随选运算的现在与未来
http://www.yesky.com/ServerIndex ... 40112/1761183.shtml
 楼主| 发表于 2004-3-29 00:00:00 | 显示全部楼层
P2P技术的历史以及分布式计算与P2P技术的关系
http://www.51p2p.com/Article_Show.asp?ArticleID=21

大家一起来攻克SARS--分布式计算
http://forums.zdnet.com.cn/cgi-bin/view.cgi?forum=9&topic=774

分布计算产业协会称:P2P用户应当获得报酬
http://www.51p2p.com/Article_Show.asp?ArticleID=37

分布式计算显奇迹 全球合作发现最大素数
http://cn.tech.yahoo.com/031204/240/1x44m.html

架构高性价比的分布式计算机集群
http://www.d2grid.com/pr_win01.html
http://www.d2grid.com/pr_win08.html
http://www.d2grid.com/pr_win09.html

全世界PC联合起来 网络上演超级计算
http://www.chip-china.com/1006.php?sid=1502

真有外星人?全球电脑“分布式计算”答案
http://www.gzitl.com/news/it_7.htm

保障QoS 的P2P 分布式VOD 系统的设计
http://www.gridhome.com/grid/paperppt/P2P%20VOD%20system.pdf

普罗计算运动
http://www.scitom.com.cn/report/critique/ctq173.html

Google实验分布式计算揭开基因之迷
http://www.se-express.com/news/news_0203.htm
(Google目前正测试通过其搜索工具条(Google Toolbar)实现分布式计算,借用个人计算机闲置的运算处理能力帮助揭开基因之迷。
分布式计算是近年比较热门的技术,通常被用来处理数据量大,单靠大型服务器无法完成的运算,其中最著名的是寻找外星生命计划SETI@Home。)

Xeon双重奏:L3缓存好在哪里?分布式计算:SETI(Text Client 3.04)
http://www.gb.tomshardware.com/cpu/03q3/030825/dual_xeon-10.html
发表于 2004-3-31 00:00:00 | 显示全部楼层
慢慢看
慢慢看
发表于 2004-4-1 00:00:00 | 显示全部楼层
好文章
发表于 2004-4-11 00:00:00 | 显示全部楼层
大长见识~
 楼主| 发表于 2004-7-3 00:00:00 | 显示全部楼层

[转帖]网格计算:新的希望

《三思科学》电子杂志    2004年春季合刊     2004年6月1日
http://www.oursci.org/magazine/200403/0307.htm

网格计算:新的希望

  如果沃卓斯基兄弟不是在十多年以前,而是在几年前开始电影Matrix的策划,那么他们也许会用Grid这个更时髦的名字。  

  我轻轻移动了一下鼠标,打断了它那无休止的计算,开始本文的写作。作为一台个人电脑的完全拥有者,我却心甘情愿的把电脑一半以上的使用时间交给了大洋彼岸的一个研究机构,用于在茫茫的无线电波噪音海洋中寻找另一个文明发出的声音。在这个地球上还有几百万人和我的遭遇相同。


seti@home的运算界面

  你应该知道我在说什么。只要稍微有一点上网的经验,你或许就能接触到它:SETI@Home,一个由全世界数百万计算机用户共同完成的科学项目,同时也是一种新型计算机组织形式的雏形。


  积沙成塔

  一些热衷于搜寻地外文明的科学家认为,宇宙中的其他文明可能通过无线电信号表明自己的存在。每天,位于波多黎各的阿雷西博射电望远镜都会接受到大量来自宇宙深处的无线电信号。但是要从这些信号中剔除来自地球的无线电干扰,找到最有可能的地外文明信号,需要最先进的超级计算机一刻不停的运转。很显然,科学家没有那么多经费。1999年5月,加州大学伯克利分校的科学家们发布了一个新的屏幕保护程序SETI@Home(在家搜寻地外文明)。作为一个屏幕保护程序,它看上去并不十分讨人喜欢。但是它所担负的主要目的却十分重要:利用个人电脑用户闲置的计算机时间,为搜寻地外文明工作。

  尽管个人电脑的进化速度快得让人吃惊,超级计算机同样也在进化。选择前者而不是后者处理天文数字一般的无线电信号数据,看上去有点不可思议。但是科学家早已发现,大多数个人电脑在大多数时间都处于闲置的状态。一台电脑闲置的计算能力对于科学家而言可能是微不足道的,但是如果把计算能力乘以500万呢?


seti@home

  这就是今天的SETI@Home。将近500万注册用户贡献出的计算能力之和相当于世界上最快的超级计算机之一——每秒67万亿次浮点运算。从1999年开始,SETI@Home程序被运行的时间总计超过180万年。目前,SETI@Home是世界上最大、也是最著名的互联网分布式计算项目。尽管迄今为止SETI@Home还没有找到任何地外文明的迹象,它的成功在方法上证明了一种新的计算方式——网格计算(Grid Computing)——是有可能成功的。


  超级挑战

  SETI@Home的成功激励着一些后来者的加入。如今,在互联网上已经出现了许多类似的分布式计算项目。例如用屏幕保护程序筛选针对天花或者艾滋病的药物,或者计算某些蛋白质可能的折叠结构。但是,所有这些项目所面临的挑战都比不上欧洲核子研究中心(CERN)的科学家所面临的。

  在瑞士的日内瓦,CERN的科学家正在建立世界上规模最大的粒子对撞机——大型强子对撞机(LHC)。这个周长27公里的环形庞然大物可以把质子加速到接近光速,然后让它们迎面相撞。

  科学家希望在2007年建成的这台对撞机揭示出物质更深层次的秘密。但是这台超级对撞机既是粒子物理学家的美梦,也是计算机专家的噩梦:如果大型强子对撞机开始工作,那么就会从对撞机的探测器中涌出数以拍字节的数据。如果说“拍字节”(10的15次方字节)这样的概念比较抽象的话,那么它相当于填满数百个主流个人电脑的硬盘。

  没有什么单独的计算机能从容不迫的处理、储存大型强子对撞机产生的数据,更不要说让超过40多个国家和地区的科学家共享这些数据。CERN的科学家考虑使用一种新的计算机组织形式——网格计算。


大型强子对撞机(LHC)效果图

  从2000年开始,CERN的科学家着手建立这样一个和大型强子对撞机一样庞大的计算机系统。大型强子对撞机的计算网格类似于SETI@Home的做法,但是前者就不仅仅是一般个人电脑用户的消遣了。连接在这个计算网格上的计算机既有粒子物理学家的个人电脑,也有许多国家和地区研究机构的超级计算机。大型强子对撞机产生的天文数字数据会分布储存在这些计算机中,而不是某一台计算机单独负责存储数据。而这些数据的分析计算也是由网格中的所有计算机协作完成的。

  
  计算机的“电网”

  一旦CERN的这个计算网格开始工作,使用它的科学家将不会感到他所面对的是成千上万联网的计算机,而是一台虚拟的超级计算机。使用者不用关心数据储存在哪里,又是在哪里被分析和处理的。只要在一台联入计算网格的计算机上输入想要查找或者计算的内容,在很短时间内网格就会把结果返回给使用者。

  这就是网格计算。网格(Grid)在英语中可以指输电网。1990年代中期,美国阿冈国家实验室的一位科学家伊恩·福斯特(Ian Foster)最先把网格这个词从从输电网扩展到了计算机领域。

  在福斯特看来,计算机组成的网格类似于输电网:当我们使用电器的时候,从来没有关心电力来自哪个发电厂,以及经过了什么电压变换。我们只是简单的把电器插入墙壁上的电源插座。然而隐藏在插座后面的则是许多发电厂和把它们连接在一起的输电线路。计算机网格模仿了输电网。当你把一台电脑接入计算机网格的时候,就相当于寻求使用计算机网格的“计算力”。你不用关心数据是由什么计算机储存和计算的,正如你并不关心电源插座后面的故事。

  网格计算就如同建立计算机的输电网。一个发电厂多余的发电能力可以通过输电网传送给远方的城市用户,一台计算机多余的计算能力远可以通过计算网格,让远方的用户加以利用。正如加州大学伯克利分校的科学家所做的那样。他们只是把由射电望远镜接收到的信号简单的放在一台专门的计算机上(相当于给电器接上电源),然后就会有数一般万计的个人电脑(相当于发电厂)把这些数据分而治之(SETI@Home)。

  感受到网格巨大威力的不仅仅是科学家,从IBM到SUN这样的信息技术公司,都把目光和资金投向了这个正在兴起的概念。例如,IBM已经投资数十亿美元用于网格计算的研发。而各种专门从事网格计算的公司,也正在雨后春笋般地冒出来。

  当然,作为一种正在兴起的概念,网格并非已经完美无缺。计算机科学家面临的挑战包括,如何让不同型号、使用不同软件的计算机在同一个网格中协同作战;如何防止网格中病毒和黑客的威胁,等等。

  20多年以前,CERN的一位计算机专家为了让互联网更容易使用,发明了划时代的万维网(WWW)技术。20多年过去了,现在我们把WWW一种普通的技术。也许有一天,计算机网格就像电网一样,会成为我们生活中最平淡无奇的组成部分之一。

  “网络就是计算机”的概念似乎已经落后了,网格才是。


(LHC,大型强子对撞机   http://lhc-new-homepage.web.cern.ch/lhc-new-homepage/)
 楼主| 发表于 2004-7-3 00:00:00 | 显示全部楼层

[转帖]搜寻费马数因子

《三思科学》电子杂志   2004年春季合刊   2004年6月1日
http://magazine.oursci.org/200403/0316.htm
说明一下,文中所有的22n+1均应为

搜寻费马数因子


  2003年10月10日,一个网络计算小组宣布找到了一个费马数因子:3×22478785+1 ,由此人们得到了截止目前为止最大的费马合数F2478782 。或许有人要问:这个不可思议的大数是通过什么方法证明是合数的?人们又是如何找到它的这个具有746190位数的因子的?或许还有人要问更基本的问题:什么是费马数?什么是费马素因子?

  为了回答这些疑问,让我们从费马开始。


  费马:业余数学家之王

  费马,1601年8月出生在法国一个皮革商人家中,逝世于1665年1月。费马最初的职业是律师,后来以图卢兹议会议员的身份终其一生。他的一生过得极其平凡,没有任何传奇经历。然而这个度过平静一生,性情淡泊的人,却谱写出了数学史上最美妙的故事之一。

  费马在年近三十开始认真研究数学,并且只是利用业余的时间从事这种研究。然而这并不妨碍他在数学上取得累累硕果。他在几何学、概率论、微积分和数论等众多数学领域都留下了自己的足迹。

  和R.笛卡儿同时或较早,费马得到了解析几何的要旨,因而与笛卡尔分享着创立解析几何的荣誉;他与帕斯卡在一段有趣的通信中一起奠定了古典概率论的基础,因而与帕斯卡被公认为是概率论的创始人;他提出光学的“费马原理”,给后来变分法的研究以极大的启示;他是创建微积分学的杰出先驱者。

  任何人,即便只是完成了上述工作中的某一项,就足以使自己在数学史上留下不朽的名声,更不用说能同时拥有这众多的成果了。然而,费马的成就尚不止于此,他将更多的业余时间与精力奉献给了自己最喜爱的消遣:数论。在这方面的研究中,他显示出自己过人的才华,完成了自己最伟大的工作。可以说,近代数论是从费马真正开始的,他是数论发展史上一个承前启后的人物。他提出了为数可观的数论定理,奠定了近代数论的基础,因而他被当之无愧地称之为“近代数论之父”。事实上,在高斯名著《算术研究》出版之前,数论的发展始终是跟费马的推动联系在一起的。如数学史家E.T.贝尔所评价的:费马是一个第一流的数学家,一个无可指摘的诚实的人,一个历史上无与伦比的算术学家。


  费马数猜想:大师的失误

  1640年,在数论领域留下不可磨灭足迹的费马思考了一个问题:式子22n+1 的值是否一定为素数。当 n取0、1、2、3、4时,这个式子对应值分别为3、5、17、257、65537,费马发现这五个数都是素数。由此,费马提出一个猜想:形如22n+1的数一定为素数。在给朋友的一封信中,费马写道:“我已经发现形如22n+1的数永远为素数。很久以前我就向分析学家们指出了这个结论是正确的。”费马同时坦白承认,他自己未能找到一个完全的证明。

  费马所研究的22n+1这种具有美妙形式的数,后人称之为费马数,并用Fn 表示。费马当时的猜想相当于说:所有费马数都一定是素数。费马是正确的吗?

  进一步验证费马的猜想并不容易。因为随着n的增大, Fn 迅速增大。比如对后人来说第一个需要检验的F5 =4294967297已经是一个十位数了。非常可能的是,由于这一数太大,所以费马在得出自己的猜想时并没有对它进行验证。那么,它到底是否如同费马所相信的那样是一个素数呢?

  1729年12月1日,哥德巴赫(哥德巴赫猜想的提出者)在写给欧拉的一封信中问道:“费马认为所有形如22n+1的数都是素数,你知道这个问题吗?他说他没能作出证明。据我所知,也没有其他任何人对这个问题作出过证明。”

  这个问题吸引了欧拉。1732年,年仅25岁的欧拉在费马死后67年得出F5 =641×6700417,其中641=5×27+1这一结果意味着 是一个合数,因此费马的猜想是错的。

  在对费马数的研究上,费马这位伟大的数论天才过分看重自己的直觉,轻率地做出了他一生唯一一次错误猜测。更为不幸的是,研究的进展表明费马不但是错的,而且非常可能是大错特错了。

  此后人们对更多的费马数进行了研究。随着电子计算机的发展,计算机成为数学家研究费马数的有力工具。但即使如此,在所知的费马数中竟然没有再添加一个费马素数。迄今为止,费马素数除了被费马本人所证实的那五个外竟然没有再发现一个!因此人们开始猜想:在所有的费马数中,除了前五个是素数外,其他的都是合数。如果这一结论被证实,那么对于费马的草率猜想来说,恐怕不会有更为糟糕的结局了。


  费马数与尺规作图:出人意料的结合

  二千多年前,古希腊数学家曾深入研究过一类作图问题,即:如何利用尺规作内接正多边形。早在《几何原本》一书中,欧几里德就用尺规完成了圆内接正三边形、正四边形、正五边形,甚至正十五边形的作图问题。然而,似乎更容易完成的正7、9、11……边形却未能做出。让后来数学家尴尬的是,欧几里德之后的2000多年中,有关正多边形作图仍停留在欧几里德的水平上,未能向前迈进一步。因此,我们可以想象得到,当1796年年仅19岁的高斯宣布他发现了正十七边形的作图方法时,会在数学界引起多么巨大的震憾了。

  不过,高斯的结果多少显得有些奇怪。他没有完成正七边形或正九边形等的作图,却偏偏隔下中间这一些直接完成了正十七边形。为什么第一个新做出的正多边形是正十七边形而不是正七、九边形呢?在高斯的伟大发现之后,问题仍然存在:正七边形或正九边形等是否可尺规完成?或者更清楚地阐述这个问题:正多边形的边数具有什么特征时,它才能用尺规做出?

  在经过继续研究后,高斯最终在1801年对整个问题给出了一个漂亮的回答。高斯指出,如果仅用圆规和直尺,作圆内接正n边形,当n满足如下特征之一方可做出:

  1) n=2m;( 为正整数)

  2) 边数n为素数且形如 n=22t(t+1=0 、1、2……)。简单说,为费马素数。

  3) 边数 n具有n=2mp1p2p3...pk ,其中p1、p2、p3…pk为互不相同的费马素数。

  由高斯的结论,具有素数p条边的正多边形可用尺规作图的必要条件是p为费马数。由于我们现在得到的费马素数只有前五个费马数,那么可用尺规作图完成的正素数边形就只有3、5、17、257、65537。进一步,可以做出的有奇数条边的正多边形也就只能通过这五个数组合而得到。这样的组合数只有31种。而边数为偶数的可尺规做出的正多边形,边数或是2的任意次正整数幂或与这31个数相结合而得到。

  就这样,正多边形作图问题与费马数极其密切地联结在一起了!数学的一大魅力在于:看似全然无关的领域竟能以出人意料的方式彼此联系在一起。透过“数学王子”高斯的杰出发现,人们确实可以从中充分领略到数学的这种魅力。事实上,正是两者这种出乎意料的神秘结合,使人们对费马数有了更为持续不断的兴趣。


  费马数研究的回顾与现状

  如上所述,在对费马数的研究中,费马迈出了第一步。他给出正确的结论:前5个费马数都是素数。然后,他做出猜想:所有的费马数都是素数。

  1732年,欧拉给出F5的素因子分解式:F5=641×6700417,从而否定了费马的推断。为了得出这一结果,欧拉还研究了费马数的性质,证明了一个重要结论:当n≥2时,费马数F5若有素因子,那么这一因子具有k×2n+1+1 的形式。这样在寻找F5的因子时,就可直接排除掉许多不必进一步检验的无关的数值,从而大大减轻的运算量。正是以此为依据,欧拉只对可能的因子进行试除。最终找到了F5的第一个因子641,最终把F5进行了完全分解。

  1877年,数学家佩平得出一个重要的判据结果:费马数Fn是素数,当且仅当F5整除3(Fn-1)/2+1 。这个结论对于检验费马数的素性是很有效的。

  1878年,卢卡斯改进了欧拉的成果,证明费马数Fn若有素因子,那么这一因子具有k×2n+1+1 的形式。通过这一加强后的结论寻找Fn的素因子,从而判断它是否是素数就更为简捷了。实际上,正是这一结论奠定了人们寻找大的费马合数的理论基础。

  1880年,著名数学家朗道给出F6的素因子分解式:F6=247177×67280421310721。

  1905年,莫瑞汉德与韦斯坦证明F7是合数。1908年,这两位数学家利用同样的方法证明F8是合数。证明中使用了上述佩平检验法则。1957年,罗宾逊找到F1945的一个因子:5×21947+1 ,从而证明它是合数。1977年,威廉姆找到F3310 的一个因子:5×3313+1 ,从而证明它是合数。1980年,人们找到F9948的一个因子:19×29450+1 ,从而证明它是合数。1980年,哥廷汀证明 F17是合数。1987年,杨和布尔证明F20是合数。1980年,开勒证明了F9448是个合数,它有因子19×29450+1 。1984年,开勒找到F23471 的一个因子:5×223473+1,从而证明它是一个合数。作为最大的费马合数这一纪录保持了近十年。1992年,里德学院的柯兰克拉里和德尼亚斯用计算机证明了F22 是合数,这个数的十进制形式有100万位以上。这一证明曾被称为有史以来为获得一个“一位”答案(即“是-否”答案)而进行的最长计算,总共用了1016次计算机运算。

  在对费马数的素因子分解方面,进展要缓慢得多。

  1971年,布里罕德和莫利逊用连分数法,借助于电子计算机花了一个半小时的机时把F7分解为两个质因子的乘积,这两个质因子一个17位,一个22位。1981年,布瑞特和普拉德利用蒙特卡罗方法花两小时机上时间,对F8进行了分解,求得 F8=1238926361552897与一个62位素数的积。1990年美国加州伯克莱分校的林斯特拉等人利用数域筛法(nFS)(并借助计算网络)分解了 F9。它是2424833与一个148位数的积。同年,澳大利亚国立大学的布瑞特用ECM算法(椭圆曲线法)分解了F10和F11 。迄今为止,F5 ~F11 ,是人们已经完成标准素因子分解式的费马合数。n=12、13、15、16、17、18、19、21、23时,对应的费马数已找到部分因子。因此,最小的尚未完全分解的费马数是 F12,它还有一个1187位的因子尚需要分解。 n=14、20、22、24时已经证明是合数,但还没有找到任何因子。尚未判定是合数还是质数的最小费马数是 F33。


  费马数因子网络搜寻计划

  随着计算机的普及,个人电脑开始进入千家万户。与之伴随产生的是电脑的利用问题。越来越多的电脑处于闲置状态,即使在开机状态下CPU的潜力也远远不能被完全利用。而另一方面,需要巨大计算量的各种问题不断涌现出来。鉴于此,随着网络普及,在互联网上开始出现了众多的分布式计算计划。所谓分布式计算是一门计算机学科,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。可以说,这些计划的出现恰好为人们充分发挥个人电脑的利用价值提供了一种有意义的选择。

  费马数因子网络搜寻计划是这种分布式计算计划之一。在这项计划中,人们打算借助网络加速对费马数的研究。从比较小的费马数 F12~ F23到一般大小的 F24~ F1000再到巨大的费马数F1000 ~F50000 都包含在这一庞大的研究计划之内。正是通过这一网络合作计划,人们得出费马数的许多新发现。仅在2003年,人们就找到了8个费马因数。2003年10月10日,通过这一研究计划人们找到了具有746190位数的费马素因子:3×22478785+1 ,由此人们得到了截止目前为止最大的费马合数 F2478782。2003年11月1日这一研究又宣布了一项最新成果:一个新的费马素因子1054057×28300+1被发现。这同时意味着又一个费马合数F8293的产生。计算机出现之前,在近三百年的时间中,人们仅仅找到了16个费马素因子。而借助于计算机,借助于费马数因子网络搜寻计划,在短短的近半个世纪,人们已经找到了234个费马素因子!

  加入这项搜索计划,只需要下载有关程序。然后这个程序会以最低的优先度在计算机上运行,这对平时正常使用计算机几乎没有影响。如果你想利用计算机的空余时间做点有益的事情,还犹豫什么?马上行动起来,加入“费马因子搜寻计划”吧。你的微不足道的付出或许就能使你找到一个独一无二的费马素因子,从而使你在数学史上留下小小的一笔呢!

  (本文经编辑删节修改后以“数学大师费马的失误”为题发表于《科学画报》2004年第4期)
 楼主| 发表于 2004-7-3 00:00:00 | 显示全部楼层
Distributed Search for Fermat Number Divisors,费马因子网络搜寻计划
http://www.fermatsearch.org/
 楼主| 发表于 2004-7-27 00:00:00 | 显示全部楼层
全世界PC联合起来
网络上演超级计算  

你可能不相信,一项搜寻地外文明的全球计划SETI@home,利用联网的成千上万台PC,获得了比目前任何一台超级计算机更强的处理能力,其运算速度比ASCI White还快。

2000年6月底,IBM在美国发布了世界上最快的超级计算机。这台名为“ASCI White”的计算机每秒钟能执行12.3万亿次运算,将用于保障美国核武器的安全,售价高达1.1亿美元。

不过,你可能不相信,一项搜寻地外文明的全球计划SETI@home,利用联网的成千上万台PC,获得了比目前任何一台超级计算机更强的处理能力,其运算速度比ASCI White还快。

实际上,SETI@home这台“网络计算机”已经稳定地运行了很长一段时间。它主要是利用联网PC的闲置能力分析世界上最大的射电望远镜获得的数据,以帮助科学家探索外星生物。

现在,整个计划耗资略高于50万美元,却拥有不凡的威力,秘密就在于其分布式计算结构。

     超级设计

     超级计算机并非依靠一个高速处理器运行,而是使用多个处理器。例如,英特尔公司最快的计算机ASCI Red就配备了9632个处理器。IBM公司的ASCI White也不只是一台计算机,而是由并行设计的512个独立的RS6000服务器组成,共有8192个处理器。一种特殊的操作系统——IBM开发的专用Unix系统——AIX管理着各处理器之间的分布式任务,以实现最佳的系统效能。
    
     SETI@home等基于Internet的分布式计算项目运作机理与此类似。执行任务时,也是由软件负责将一项工作分配到联网的各台计算机去执行。差别在于,组成ASCI White的512台服务器摆放在同一个房间内,数千颗处理器之间用高速线缆连接,一支专门的工程师队伍负责维护,以确保它的顺畅运行。而SETI@home的计算机则分布在全球各地,彼此之间的连接速度慢几千倍。ASCI White的处理器可以互相对话和共享内存,速度达每秒千兆比特,而SETI@home及类似项目则通过调制解调器(Modem)互相联系。

    这种差别意味着,基于Internet的分布式计算只能处理易于分割成独立小块的一组问题。最理想的情况是,这项工作需要在一个相对较小的数据集上进行大量处理。SETI@home计划比较理想,它把射电望远镜获得的数据分割成只需一整天就可处理完毕的小型数据包,每个数据包大小仅为300KB。同样,蛋白质分子行为的计算和微生物表面毒物的分析也适合分布式计算。

    不过,计算密集度很高的天气预报则不行。因为计算地图上一个微小地区的天气需要有关邻近地区的信息,而这反过来又需要与之相邻地区的信息,如此等等。这就涉及到大量进程间的通信,这种计算有可能会吞掉你的全部带宽,耗费掉你的全部计算资源。

     计算高手

     SETI@home并不是惟一的大规模Internet计算项目,最早的Internet计算项目是网上搜索最大质数。这是一项巨大的计算任务,虽然没有实用价值,但对计算机爱好者和数学迷来说却是饶有兴趣的挑战。

     1999年1月1日,一名日本爱好者发现了目前人类已知的最大质数——26972593-1。学术组织电子前沿基金会(Electronic Frontier Foundation)还悬赏10万美元,奖给第一个发现1000万位质数的团体或个人。

    追根溯源,分布式计算的前身,诸如Creeper(爬行者)和Reaper(收割者)起源于20世纪70年代美国国防部ARPAnet网络研究项目。稍后,在施乐公司的实验室,一种研究人员在工作之余开发的蠕虫程序出现在以太网上,这种程序在计算机闲置的时候可以利用CPU的处理能力进行额外的操作。这些尝试带动了后来基于局域网的分布式计算项目的发展。

    一个典型应用是Beowulf群集——通过快速交换以太网线路把多台PC连接在一起。这种松散耦合的方式既增强了计算能力,又降低了系统的价格。

     走向市场

     对高性能计算的渴求推动着分布式计算项目的发展。以前,克雷(Cray)超级计算机主宰着质数领域。如今,四种最大的质数都是通过网络计算发现的。而SETI@home在各台PC上的运行时间累计已达数十万年。它的成功促使更多的公司投身分布式计算领域,开拓新市场。

   网上搜索质数、SETI@home计划是用户自愿参加、义务服务的,而新成立的一些分布式计算公司则采取有偿服务的方式——如果你同意这些公司在你的计算机闲置时运行他们的程序,也就是说,只要你的PC承担一部分计算工作,就会得到报酬。当然,你不能指望发大财——所有这一切都是以价格便宜为前提的。

    在加拿大设有研发中心、总部在美国的分布式科学公司(Distributed Science)认为,有偿服务的前景非常乐观。公司新闻发言人阿姆茵·勒孜指出:“目前上网的计算机有2亿台,其中约有1000至1500万台PC已经可用于分布式计算领域。” 据了解,该公司的分布式计算软件已在10万台计算机上安装运行,目前正在实验一项模拟核武器稳定性的计算任务。该计划是公益性的,但它的商用计划将是赢利性质的。
     由卢卡斯电影公司互联网部负责人马克·汉朗等人于去年1月创立的大力(Popular
Power)公司也在执行一项分布式计算项目——对医学上复杂的流感接种免疫反应进行计算机模拟,其结果将有助于加快流感疫苗的研制。

    两家公司希望,全球各地的计算机用户都能够参与到这些非赢利性的计划中来,同时许诺向客户提供付费服务的方式。它们预计,很快网上将出现廉价出租计算能力的巨大市场。
事实的确如此。一方面,超级计算机价格昂贵,一般的公司、研究人员和学生用不起;另一方面,互联网的普及带来了PC“大爆炸”,为CPU缺乏者提供了一个巨大的宝库。这种潜在的计算需求无疑将产生巨大的商机。

    像研究机构和银行,往往在短时间内(一到两个月)需要巨大的计算能力,其余时间则不需要。对它们来说,购买和维护一台超级计算机不仅费事,而且经济上也很不合算。总部在美国弗吉尼亚州、致力于高性能计算服务的帕拉班(Parabon)公司认为,采用分布式计算、通过网络来解决不失为一种好办法。

    不过,由于这种计算方式要在用户的计算机上执行未知的程序,因此信息安全问题就显得非常重要,银行、商业等部门对此持慎重态度也就不足为奇了。这可能是分布式计算商业化运作要解决的头等大事。

     未来发展

     目前,人们若希望享用商业公司提供的分布式计算服务,就不得不自己编写程序专门解决诸如管理和协作等低层次的问题。而美国旧金山市从事下一代智能数据中心开发的森达塔(Centrata)公司正在研制一种崭新的分布式计算机,这种计算机可自动管理进程,对程序员来说就像一台大型计算机,交给它的工作任务将被自动分解,并被合理安排时间执行。

    分布式科学公司也表示,它将进一步更新客户机程序,向渴望超级计算的客户提供类似的界面。而一项名为Cosm的开放源代码计划旨在研制一种分布式操作系统,这种操作系统在执行任务时可自动提取基础硬件的详细数据。

    森达塔公司想得更远,它打算利用从网上租来的存储空间创建一个巨大的虚拟硬盘。而这种网络存储的概念已经在美国麻萨诸塞州曼高软件公司(Mangosoft)的产品中实现。该产品利用众多网络用户的硬盘空间创建了一个虚拟的文件服务器。对用户来说,这个虚拟服务器的操作就像读写C盘、D盘一样简单,但是数据存储的位置并不固定,而是散布在全球各地。

    在网络带宽有限的情况下,网络存储实现起来可能会相当困难。不过,你的计算机最终将会成为一个巨大的24小时连续运转的网络机器的一部分——每天它都在把成千上万台PC闲置下来的小能力汇集成超级计算,并以此改善着我们的生活。
     
    也许,不久的将来我们就会在路上与可爱的外星人不期而遇。

[ Last edited by 碧城仙 on 2005-1-22 at 11:08 AM ]
发表于 2004-8-23 00:00:00 | 显示全部楼层
都是好文章!楼主辛苦了。我编辑了一篇网页,发布在这:

http://www.itzoo.com/lib/grid/lib.htm

[ Last edited by freestman on 2004-11-24 at 08:28 PM ]
头像被屏蔽
发表于 2004-10-2 00:00:00 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2004-11-14 18:55:58 | 显示全部楼层

还是人多力量大啊

 楼主| 发表于 2004-12-20 12:50:10 | 显示全部楼层
因特网形成的因特网格(World Wide Grid),是一个由全球范围内相互协作的个人计算机组成的网络,用户可以像用电一样,方便地使用这个网络所提供的计算能力和服务。

目前,大约有450万人每天都在搜索地球之外的智能生物。也许很多人会错解他们所做的工作,难道他们是每天夜里带着数码摄像机爬上小山,期待着UFO的出现吗?当然不是!这些人都是普通的办公室职员、家庭妇女、大学生或者中学生,他们所做的事情与网络上的其他用户没有什么两样,所不同的是,他们在下载网络资源的同时,将电脑中剩余的、可自由支配的计算能力提供给了加利福尼亚州的一个名叫SETI@home(即Search for Extraterrestrial Intelligence at home的英文缩写,意为在家中搜索地球之外的智能生物)的研究项目,以便搜索地球之外的智能生物。

SETI@home项目从1999年5月开始启动,虽然至今天文学家也没有通过网络找到地球之外的智能生物,但他们却发明了这种新的工作方式。SETI@home项目已经开始着手“分布式计算”(Distributed Computing)的研究了,即在网络上在线分配和捆绑计算。下一步的目标是“联网计算”,即根据点对点原理,对可以使用的应用程序、计算能力和数据进行分工,并且根据需要对可以检索到的内容进行处理,这种方法被称之为“网格计算”。这个概念来源于英文的网络、网格和电网这几个概念,就如同一个电网,用户使用这些资源就像用电一样简单,只要插上插座即可。


来自宇宙的数据流:对于“哈勃”这样的大型望远镜所产生的海量数据,如果没有网格计算,那么天文学家将对此束手无策。

不只是全球范围内的研究人员以及搜索地球之外的智能生物的天文学家有这种需求,其他领域的科学家、产品开发人员和经常奔波于路途中的商人或者是超级影迷都有着类似的要求。比尔·盖茨在1981年所说的“640KB内存已经足够,可以满足任何应用程序的需求”的时代早已经一去不复返了。目前,完整的解决方案应该是提供全球范围内计算机的联网——一个全球范围的网格。

通往大型计算之路
网格研究专家们指出网格技术的发展前景是把因特网作为惟一的一个超级计算机,未来的因特网不只是像现在这样随时提供信息,而且还可以根据需要完成任意一项任务,即能够按时完成任意一项计算任务。弗劳恩霍夫(Fraunhofer)研究中心的网格项目负责人弗兰茨-约瑟夫·普弗劳恩特(Franz-Josef Pfreundt)非常兴奋地解释说:“我的台式电脑不仅仅是一个用来传输软件、计算能力和服务的工具,还是网格中的一个人机界面。”

SETI@home项目已经证明,这样一个“发电厂”在理论上是可行的。它是一个更复杂的环绕地球的网络。传统的方法是通过一台计算机与服务器进行数据交换来搜索地球之外的智能生物,而网格计算是将所有参与其中的计算机联接起来,共同运行。因此绝对有必要建立一个可以提供资源并可以进行分配与搜索的完善组织、一个防止网络失灵和滥用的保护措施,以及一个开放的、可扩展的、能满足每一个用户需要的组织结构。这样就需要制定一个全球范围的因特网协议和标准。


欧洲粒子物理研究所的个人计算机平台:在日内瓦的这个粒子物理研究所中用到的这些计算机或许在将来会改变整个世界。

这样一个网格的核心是一台专用超级计算机,由它来充当顶级管理员的角色。这台超级计算机根据不同的任务找到合适的计算机,并分配给它相应的任务,将数据和必需的软件传送过去。这时,客户端程序会像屏保程序一样出现或者在后台秘密地工作,以最低的工作优先级运行,以防影响本地程序的正常运行。我们可以把这些参与计算任务的计算机想像成可以自动找到的“名片”,它能够向超级计算机提供本地的工作状况、存储能力和传输速度等信息。如果没有网格参与计算,那么相比之下,计算效率只有20%到30%。Sun公司的网格计算负责人沃尔夫冈·根茨什(Wolfgang Gentzsch)先生说:“如果采用网格技术,工作的效率可以提高70%到80%。”

网格技术已经开始应用于企业和研究机构的局域网中。美国的Celera基因公司在他们的研究领域做出了伟大的贡献:破译了第一个人类基因组,其中的关键就是他们以网格技术的计算平台为基础。2002年底之前一直在Celera公司工作的克努特·赖讷特(Knut Reinert)教授回忆说:“在高峰期,计算平台可以提供120个处理器,它的工作能力是普通计算机的120倍,这在我们对2700万基因片段进行相互比较时起到了非常重要的作用。”

安全性要求最高

像摩托罗拉、索尼、宝马或者福特等这些跨国公司都采用了Sun公司提供的企业内部局域网的网格技术。除了考虑计算能力之外,这些企业首先想到的是安全性和保密性问题,特别是当新项目刚刚开始策划的时候。比如在碰撞实验中汽车的仿真结构,以及一辆汽车跟随另一辆汽车一起撞到墙面时,材料的变形如何减少到最小;又如商业企业在IBM公司所提供的“电子商务随需应变(e-Business on demond)”的网格系统中找到符合他们需求的解决方案。这些商业机密如何保证不泄漏出去?在网格市场上的第三大生产商HP正在研究企业跨地区的安全性解决方案。

除了商业间谍之外,大多数企业和研究者还担心他们的网格在向因特网上自由扩展时会受到黑客的攻击。慕尼黑大学的天体物理学家、电视节目“Alpha Centauri”(BR-Alpha)的主持人哈拉尔德·莱施(Harald Lesch)说:“我的学生非常热衷于联网计算,幸运的是,我们只在局域网中使用。”显而易见,对于这些需要处理“哈勃”望远镜产生的海量数据流的人们而言,这种计算方式是必须的。然而他们对只能在局域网内部使用表示遗憾。莱施进一步解释了为什么放弃扩展到外部因特网,他说:“我们最近受到来自保加利亚黑客的攻击,由此可见,在局域网之外数据更容易受到侵犯。”

因此,从局域网网格跨跃到因特网网格的最后技术障碍是安全问题,目前还没有得到彻底地解决(见左下的采访)。例如,一个黑客在网络节点上会在什么时候、对什么内容进行攻击?他们将采取何种方式攻击安全系统?此外,不同厂商的应用程序与单个网格节点的标准尚未统一。从2000年年底开始,来自科学和工业界的5000多名专家聚集到“全球网格论坛”(Global Grid Forum,GGF),讨论如何把握全球网格的进一步发展。弗洛里安·申克(Florian Schintke)认为,网格技术还需要再等上一段时间才能广泛应用。GGF成员、来自柏林的“康拉德-楚泽-信息技术中心”(Konrad-Zuse-Zentrum)的计算机专家亚历山大·赖讷费尔德(Alexander Reinefeld)教授明确指出:“要实现建立在更广阔范围的网格计算以及更吸引人的价格,还需要多年的研究和开发工作。”

未来大有可为

网格技术的前景是非常诱人的。目前全球包括笔记本电脑和服务器在内的计算机超过10亿台,由此不难看出,网格计算将可以形成一台巨大的超级计算机。无论何时何地,各类科研项目都能利用人们计算机上的剩余计算能力。毕竟从现在的情况来看,如果想完成这些研究项目,大型计算机过于昂贵或者还不够用。
如果能够实现“网格经济”,那么刚刚诞生的网格计算的前景将不可估量。作为推动者的网格提供商可以根据计算资源和数据资源的需求进行调整,来满足不同用户在质量、时间上的要求,并且花费是可以支付得起的。弗劳恩霍夫研究中心的弗兰茨-约瑟夫·普弗劳恩特描绘了未来实现全球“网格经济”的繁荣景象:“计算能力、软件和服务都已经具备了,最后我们只需要像用电一样支付费用,而不用知道它究竟是从哪里来的。”

全球的网格项目

建立在网格技术基础之上的全球联网计算,目前只是应用在大学和研究实验室中。除左图中所列举的重要项目以外,还有:
加拿大生物信息技术资源(CBR):在加拿大由15所研究机构以及其他很多大学和专科医院组成的生物信息技术的联盟(www.cbr.nrc.ca)。
横跨欧洲的网格(CrossGrid):在波兰的克劳考(Kraukau),由11个欧洲国家的21个成员建立的一个欧洲范围内的网格(www.crossgrid.org)。
数据网格(DataGrid)和洲际大型资料交换网格(DataTag):在欧洲粒子物理研究所中,有很多的网格项目。这些项目建立并发展着欧洲、亚洲和美洲的国际网格平台(www.cern.ch)。
弗劳恩霍夫资源网格(FhRG):在德国弗劳恩霍夫研究所的网格为那些需要大量计算的应用程序与专用软件工作的企业提供支持。(www.fhrg.fhg.de)。
国际网格联盟(iGrid):在美国的芝加哥,50个研究实验室的计算机组成了一个网格。他们的目标是要提供更好的网格技术以及网格应用程序。(www.isoc.org/inet99/proceedings/4a/4a_2.htm)。
国际临床生物统计学协会(ISCB):在全球有超过1600个成员在生物信息和分子生物学方面利用计算机资源进行相关的研究。他们的中心设在加利福尼亚的圣地亚哥(www.iscb.org)。
粒子物理资料网格(PPDG):12所美国研究实验室和大学在开发用于高能和原子物理实验的服务(www.ppdg.net)。

从过去到现在最流行的超级计算机

1964年

克雷(Cray)的CDC 6600:非西摩·克雷(Seymour Cray)设计出了第一台高性能计算机。这是一台名副其实的超级计算机。作为第一台超级计算机,它每秒钟可以运行300万次浮点运算,并可以在两台计算中并行完成指令。



1976年

克雷-1:克雷-1同样是由非西摩·克雷开发的,它具有每秒钟运行13300万次的工作能力,主内存是8MB。它在接下来的几年里在世界上都承担着重要的大型任务。



1985年

克雷-2:克雷-1的继任者,与前一代产品相比运行速度超越了GHz的限制(每秒钟运行19亿次,256 MB的主内存),并且已经可以与其他的克雷-2进行联网。



1994年

美国宇航局的Beowulf项目:美国宇航局把16台商用电脑连接成一个集群,它每秒钟可以运行7000万次,价格为40000英镑。



1997年

IBM的深蓝:这个庞然大物由256个并行处理器组成。凭借每秒钟运行10亿次的计算能力,它击败了国际象棋世界冠军加里·卡斯帕罗夫。



2002年

NEC的地球模拟器:目前最好的超级计算机来自于日本研究实验室中的项目。它的工作能力是每秒钟运行41万亿次,主内存为10TB。


在这里,您可以自由地利用每个计算机的计算能力

对于工业界来说,这个特别的研究项目不是要成为速度最快的获胜者,而是要利用因特网免费地获得帮助。

搜索地球之外的智能生物:在加利福尼亚的伯克利SETI@home研究项目中,您可以从研究小组那里获得经过位于波多黎各的305米长的射电望远镜过滤后的来自宇宙的信号(http://setiathome.ssl.berkeley.edu)。
抗击艾滋病毒(AIDS):科学家们通过他们的努力试图找到更多HIV病毒的结构(www.fightaidsathome.org)。
对抗生物恐怖主义行为和癌症:美国的企业和美国国防部呼吁,与他们联手共同研究一种抗炭疽病病原体的疫苗和抗天花或者癌症的药物(www.grid.org)。
用Google进行研究:这个搜索引擎支持像Folding@home这样的科学项目,该项目在搜索的基础上利用蛋白质的3D结构来仿制新的药物(http://toolbar.google.com/dc/offerdc.html)。
更好的搜索引擎:您可以从Grub这个新的搜索引擎中获得帮助,它会搜遍整个网络找到并分析您所需要的东西(www.grub.org)。
代码破解:它的吸引力在于您可以完全公开地进行密码破解并且还可以赢得奖金。获胜者可以获得1000英镑的奖励(www.distributed.net)。

人物采访

在网格计算中,最致命的薄弱环节在什么地方?

英格瓦德森:在每一个环节中都可能会出现问题,我觉得从根本上来说,为其他人提供准备好的数据以及设置第三方所使用的基础结构都是充满风险的。可以把网格计算与其他所有的计算机网络同样看待,都是把信息技术全盘托出。这种情况下,需要关注三个关键问题:机密性、可靠性和易获取性。

在媒体中,我们可以经常看到在因特网上有关黑客攻击的消息。对网格计算来说,这意味着什么?

英格瓦德森:在最近一段时间里,拒绝服务(DoS ,Denial of Service)的攻击非常流行。这个程序会用打包的数据持续攻击一台计算机或者服务器,直到被攻击的目标计算机崩溃。该黑客程序就是利用了程序和操作系统的漏洞和弱点,或者是协议执行程序的漏洞。在目前的网格计算系统中自然也存在着这个问题。而且越难确定这些安全隐患,系统越容易出现问题。对于网格计算来说,要明确的是:它需要最高的安全等级!因为在网格中要完全支持所有可以持续提供资源的IT基础结构以及关键的商业功能。

如何确保每一个网格的参与者不滥用网格?以及网格不会因此瘫痪?

英格瓦德森:在很大范围内富有成效地使用网格计算不只是一项技术挑战,还必须在所有的参与者中制定强有力的协议或者约束机制,并在其中详细地规定:谁、怎么样、在什么地方以及什么时候使用或者用网格来做什么,以此把网格瘫痪的危险尽量降到最低。另外,人们在发现网格出现问题时,有责任向服务器报告情况。

因特网变成全球网格,成为一个超级计算机,是乌托邦还是不久就会成为现实?

英格瓦德森:我认为,现在的机会是很好的。在网格市场上,三大巨头IBM、HP、Sun为开发这项技术投入了数十亿的巨额资金。网格计算已经显现出它的优势,它可以降低费用并为IT行业的管理人员提供更好地控制他们的基础架构的机会。当然,在网格中存在的安全问题,是要谨慎应对。因为黑客也会紧跟这个大趋势,勿庸置疑,他们知道在未来的网格计算中会产生新的漏洞。
 楼主| 发表于 2004-12-21 20:48:15 | 显示全部楼层
卓尔不凡的网格应用
■ 清华大学计算机系高性能所 刘鹏

  网格将成为人类迄今为止最强有力的“工具”。它使人们能够同时调动数百万台计算机完成某一项计算任务,能够操作千里之外的贵重设备,能够汇集数千科学家之力完成同一项科学试验,能够让遍布各地的人们在逼真的虚拟现实环境中进行面对面的交流,能够让信息自动融合并让计算机自动完成许多以前必须由人完成的处理流程……由于网格的不同作用,它被划分成不同的类型,如计算网格、设备网格、数据网格、远程沉浸网格、信息服务网格等。
  计算网格:完成分布式超级计算
  获得前所未有的计算能力是开展网格研究的原动力。这类研究称做分布式超级计算,其目标是将地理上广泛分布、系统平台各异的多种计算资源用高速网络连接起来,形成虚拟的超级计算平台,获得前所未有的处理能力,用于解决诸如飞行器数字模拟、核爆炸模拟、天体运行模拟、虚拟现实和高分子材料分析等需要超强计算能力的科学和工程问题。
  与传统的分布式计算相比,这类系统具有更复杂的特征,如动态扩展性、系统平台的各异性、结构的不可预测性、多级管理域等。这些问题的解决,需要一种新技术从整体上来管理系统的运行,这就是计算网格(Computing Grid),它作为“粘合”不同网络空间、不同系统平台的中间件,对整个系统实行统一的用户管理、资源管理、作业管理和安全管理,保障计算系统的可靠运行。
  由美国国防部下属的国防先进研究计划处DARPA支持的、加州理工学院负责完成的军事仿真项目SF Express将大型军事仿真任务分解到分布式环境中运行,在场景分发、资源配置、资源管理、信息服务、日志服务、监视和容错等方面都利用了网格平台的动态管理功能。1998年3月16日,SF Express集合跨越7个时区的13台并行计算机之力,使用了1386个处理器,成功地模拟了100298个战斗实体,实现了当时历史上最大规模的战争模拟。而在没有使用网格之前,SF Express只能模拟10000个战斗实体。
  德国爱因斯坦研究所带领多家单位共同进行了数字相对论的研究,它利用网格求解爱因斯坦相对论方程并模拟出天体的运动规律。该项目使用了4台超级计算机,采用了许多措施来优化分布式计算的整体性能。运行效率由优化前的15%,提升到优化后的63%。该项成就使得它在2001年国际超级计算会议上获得了著名的Gordon Bell奖。
  在计算规模上,美国加州大学伯克利分校建立的SETI@home分布式超级计算项目已经达到了超乎想像的程度。SETI@home的意思是“在家中搜寻外星人”。在波多黎各,有一台世界上最大的射电望远镜,它采集来自外太空的各种信号,希望能够从中找到外星人试图与人类沟通的证据。这台射电望远镜一天能采集到50GB的数据,要分析这些数据,单靠世界上任何一台超级计算机都无法完成。于是,从1999年5月开始,加州大学伯克利分校在其网站上发布了一个软件,邀请所有人前去下载。当这个软件被安装在本地计算机上后,就会以屏幕保护程序的方式进行工作,当您的计算机处于空闲状态时,它就自动开始计算,分析一小块数据,并把结果自动发往SETI@home网站进行汇总。这个项目取得了巨大的成功,参加的人数和所贡献的计算能力是天文数字。从1999年5月到2004年6月,共有500万人参加此项计算,贡献了197万年的计算机处理时间,完成了5.2×1021次运算。
  像SETI@home这种计算形式称做志愿者计算,它是网格计算的一种特殊形式。类似的项目还很多,例如D2OL项目用于寻找埃博拉病毒、炭疽热杆菌和天花病等的解药。2003年“非典型肺炎”发作期间,D2OL紧急开展了利用成千上万台志愿计算机寻找SARS解药的工作;Distributed.net用来破解密码,目前已经能够成功破解56位的RSA密码;Folding@Home研究蛋白质和疾病的关系;Find-a-drag.com致力于发现新药;FightAIDS@Home用于寻找抗艾滋病的药物;Genome@home研究基因序列;GIMPS和MM61用于发现更大的素数等。
  设备网格:远程共享仪器设备
  随着网格应用的发展,人们将网格资源的类型进一步扩展,将一些广泛分布的贵重仪器和大型设备也加入到网格系统中,实现这些设备的远程共享,提高它们的使用效率,扩大它们的应用范围。
  例如,由美国能源部资助的XPort项目能够让远程使用科学仪器达到前所未有的方便程度。它在网格的支持下,提供了对几台昂贵的X射线结晶学设备的远程访问,能提供这些远程仪器的使用规划、仪器操作、数据获取、筛选和分析等功能。XPort将大大简化巨型分子晶体结构的设计和实施。科技工作者只要用邮包把晶体快递给仪器所在地,就可以在自己的实验室中获取晶体内部结构的可视化图像。XPort带来的明显好处是:一方面它大大缩短了研究时间,提高了设备的利用率,使普通的科技工作者能够用上先进的设备;另一方面它提供了一个协同研究平台,使研究能够以团队的方式开展,为交叉学科研究创造了条件。
  数据网格:处理海量数据
  现实中有很多应用是数据密集型应用,它们更侧重于数据的存储、传输和处理。这方面的典型应用包括卫星数据处理、粒子物理研究和生物与医学研究等。这些应用的共同之处在于面对的都是海量数据。解决这一问题的途径就是建立数据网格(Data Grid),将大量数据分散到全球各地的计算机上进行分布式处理,由世界各地的专家共同研究。 
  欧洲原子能研究中心CERN开展了数据网格研究,其主要目标是处理将在2007年建成的大型强子对撞机(LHC)源源不断产生的实验数据。LHC中的巨型实验探测器每年将产生数百亿兆字节的数据量,这相当于两千万张光盘的存储量。如果用现在最快的个人电脑来分析这些数据,需要七万多台。DataGrid的目的就是集合几百个参与该计划的研究机构的力量来处理这些数据。通过DataGrid,CERN计算机中心将把这些数据通过高速网络分配给欧洲、北美、日本等地区的区域中心,再逐级分解传送给不同地区、不同研究机构的物理学家,由他们进行处理。
  除了处理大型强子对撞机的海量数据外,DataGrid还有广泛的用途,如进行生物医学领域的研究,或进行地球观察等。
  生物医学
  虽然人类基因组计划在媒体的曝光率很高,但相对于人的细胞里每个DNA所含的35亿对基因而言,科学家们已经完成的基因分析工作只是极少的一部分。要全部标注这些基因需要很大的数据存储及处理能力。DataGrid将为该类计划提供高性能数据库支持、代码管理、数据挖掘、交互式图形界面、新的实验手段以及与国际同行共享研究成果的手段。数据网格在生物、医学领域的另一个应用是处理医学图像,它在实时图像获取、处理、存储、共享、检索等多个方面具有独到的优势。
  地球观察 欧洲空间局管理了几个地球观察卫星。这些卫星每天会下传大约100GB的图像,新卫星ENVISAT发射之后,数据量又增大了5倍。为此,地面站建立了专用的设施来处理这些数据,目前已经保存了上千万亿字节的数据。欧洲数据网格DataGrid将使处理卫星数据的能力大大提高,
  它不仅将海量数据分散到整个欧洲范围内保存,提供更高效的访问方法,还提供了更强的处理能力。在此基础上,对卫星数据的研究水平也将大大提高,例如,目前已经利用大气中臭氧层数据建立了一个专用试验床。
  另一个著名的美国网格NPACI不是专门的数据网格,但它也具有处理极其海量数据的能力,其典型应用是数字天空和大脑研究。
  数字天空 建立大范围的数字天空是当今天文学的热点。天文学家使用光学、射电、远红外望远镜测定并记录所有能与噪声相区别的天体,而NPACI万亿字节的存储能力及万亿次的处理能力给研究这些数据提供了前所未有的支持,例如,现在就有条件对全部数据进行某种统计分析,筛选出具有某些属性的天体。
  大脑研究 近年来,科学家加强了对大脑的研究。在一些试验系统里,神经学家们针对老鼠和蟋蟀等动物已经积累了相当多的映射数据。然而,没有网格的支持,处理如此海量的数据(一个实验就达GB量级)是非常困难的。在NPACI的支持下,不同地方的神经学家们组成了研究联盟,使得各种实验数据能够积累下来,并因此发展出一些全新的大脑分析手段,例如,使用空间变形算法比较不同物种(如人与猴子)之间大脑的异同。
  远程沉浸网格:带您进入虚拟现实环境
  远程沉浸网格是一种特殊的网络化虚拟现实环境。这个环境可以是对现实或历史的逼真反映,可以是对高性能计算结果或数据库的可视化,也可以是纯粹虚构的空间。
  “沉浸”的意思是人可以完全融入其中:各地的参与者通过网络聚集在同一个虚拟空间里,既可以随意漫游,又可以相互沟通,还可以与虚拟环境交互,使之发生改变。
  目前,伊利诺州大学芝加哥分校的电子可视化实验室EVL已经开发出几十个远程沉浸应用,包括虚拟历史博物馆、协同开发环境、协同学习环境等。远程沉浸使分布在各地的使用者能够在相同的虚拟空间协同工作,就像是在同一个房间一样,甚至可以将虚拟环境扩展到全球范围内,创造出“比亲自到那儿还要好”的环境。更重要的是,它将“人/机交互”模式扩展成为“人/机/人协作”模式,不仅提供协同环境,还将对数据库的实时访问、数据挖掘、高性能计算等集成了进来,为科技工作者提供了一种崭新的协同研究模式。
  信息服务网格:提供按需访问服务
  我们面临的是一个信息爆炸的时代,各种信息成指数地快速增长,而现在互联网上的信息服务器只能独立面对用户,相互之间不能进行信息交流和融合,就好像是Internet世界上一个个孤立的小岛。物质和能量是用掉一份就少一份的,但信息却不会因为用户多而耗尽,如果把信息当成物质与能量一样使用,锁在一个个孤岛里,就会造成极大的浪费。
  解决这一问题的最佳途径是建立信息服务网格(Information Service Grid)。信息服务网格是利用现有的网络基础设施、协议规范、Web和数据库技术,为用户提供一体化的智能信息平台,其目标是创建一种架构在操作系统和环球网之上的基于Internet的新一代信息服务基础设施。在这个平台上,信息的处理是分布式、协作和智能化的,用户可以通过单一入口访问所有信息。信息网格追求的最终目标是能够做到按需获取信息。信息网格的核心问题是:如何描述信息、存储信息、发布信息和查找信息;如何将异构平台、不同格式、不同语义的信息进行规范和转换,实现信息的无障碍交换;如何将网格环境中众多的服务功能,按照用户的需求进行有机集成,形成自动完成的工作流程,向用户提供一步到位的服务。
  虚拟天文台(VO)是信息服务网格的一个典型例子。天文观测产生了大量数据,这些数据分布在世界各地,未得到很好的利用。目前,天文学界在用网格技术将其融为一个整体,试图使互联网成为世界上最好的望远镜:它有天空在不同光谱下的信息,比用世界上最好的天文望远镜所观察到的还要全面。2004年3月,由此形成的全世界最大的天体数据库——史隆数字巡天(SDSS) 第二版数据库正式在互联网上发布。SDSS由全球各地13个天文研究所、超过200位天文学家共同完成,它包含了数亿个星体的精确数据,如亮度、位置等信息。公众可在Internet上自由查询其影像及天体数据,他们可以同时使用全波段观看一个天体,而不需要在一个中心观看红外波段观测结果,再到另一个实验室看可见光波段的观测结果。
  另一个例子是由英国五所大学和欧洲生物信息学研究所建立的生物信息学myGrid,它综合集成了散布于互联网上的多个不同格式的数据库,为生物学研究人员提供了一个全新的实验环境。研究人员可以在myGrid网站界面上提交一种蛋白质成份数据,myGrid可以自动将其与已知的各种蛋白质成份相匹配,找到最相近的答案,并画出其三维结构图像。像这样强大的工具,将大大提高研究人员的效率。
  (计算机世界报 第28期 B11、B12)
您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

小黑屋|手机版|Archiver|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2020-7-12 00:49

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表