找回密码
 新注册用户
搜索
查看: 10228|回复: 11

[原创] Folding@home项目简介(请大家帮忙共同修改)

[复制链接]
发表于 2009-5-25 20:17:19 | 显示全部楼层 |阅读模式
玩的就是科学

——Folding@home分布式计算项目




一、项目简介

  Folding@home是一个非常重要的而且是全球最为流行的志愿者分布式计算项目,它拥有重大的科学意义,同时对该项目的参与,对电脑玩家也是一次重要科普和技术提升。通过大家的共同参与,我们可以借助分布式计算,用自己的个人电脑组成强大的科学计算机,一起解决重大的科学问题,同时与全人类共同分享运算结果。

  Folding@home研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算项目,属于生命科学类项目。我们使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程,并指引我们近期对由折叠引起的疾病的一系列研究,找到相关疾病的发病原因和治疗方法。

  Folding@home能了解蛋白质折叠、误折以及相关的疾病。目前进行中的研究有:癌症、阿兹海默症(老年失智症)、亨廷顿病、成骨不全症、帕金森氏症、核糖体与抗生素。



        


  您可以在斯坦福大学官方网页上下载并运行客户端程序,随着更多志愿者的计算机加入,此项目计算的速度就越快,就会计算出蛋白质在更长时间内的折叠,距离科学家找到最终答案也就越来越近。

  相关知识:什么是蛋白质?它们是怎样折叠的呢?




  蛋白质是一个生物体系的网络基础,它们是一个个纳米级计算机。在蛋白质实现它的生物功能之前,它们会把自己装配起来,或者说是折叠;虽然蛋白质折叠对所有的生物来说是最基本的和最明确的事实,但它的折叠过程对人类而言仍然是个未解之谜。此外,当蛋白质没有正确的折叠(误折)无疑会产生严重的后果,包括许多知名的疾病,比如癌症、阿兹海默症(Alzheimer's),疯牛病(Mad Cow, BSE),可传播性海绵状脑病(CJD),肌萎缩性脊髓侧索硬化症(ALS),还有帕金森氏症(Parkinson's)等。



二、项目原理


  Folding@home可以说是一个非常基础性的研究项目,也是一个纯粹的公益性生命科学研究项目。它以分子动力学为原理,用大量的运算来模拟蛋白质的折叠过程,从而为攻克医学界重大疑难病症而做出努力。

  蛋白质在生物学中充当如此重要的(原文为根本性)角色, 科学家开始对人类的基因组开始排序。基因组实际上是一张跟蛋白质有关的“蓝图”——基因组包含遗传密码(DNA Code),这些密码决定着氨基酸串成蛋白质长链的顺序。

  但是, 仅仅了解基因组序列并不能使我们充分了解蛋白质的工作,更无法了解它是如何工作的。为了发挥它的功能作用(比方作为酶和抗体),他们必须具有非常特定的形状,亦称“折叠(Fold)”。蛋白质犹如一台令人惊奇的机器: 在他们进行工作之前,他们自己组装自己!这种自我装配被称为“折叠(Folding)”。

  Folding@home项目的目标之一是模仿蛋白质折叠,从而了解蛋白质是如何那么迅速可靠地折叠的,并了解如何使用这些蛋白质的属性来制造高分子聚合物。


         

  当蛋白质非正常折叠,可能凝聚起来(“集合体”) 。这些凝聚物可能经常聚集在脑子里,这就是现在通常认为导致阿兹海默氏症和疯牛病的病因。比方阿兹海默氏症、囊肿纤维化(Cystic fibrosis)、疯牛病(Mad Cow, BSE),一种遗传的肺气肿,甚至许多癌症的起因都是蛋白质的非正常折叠。

  Folding@home项目的核心原理在于求解任务目标分子中每一个原子在边界条件限制下由肽键和长程力等作用所导致的运动方程,进而达到实现模拟任务目标分子折叠运动的目的。每一个原子背后都附庸这若干个方程,每一个方程都可以转换成一组简单的向量指令。同时由于长程力的影响,条件分支也随处可见,Folding@homeGPU使用量上也要大于图形编程。因此这个项目完全可以用于显卡稳定性的检测,我们已经发现了很多机器由于电源供电能力有限或显卡做工问题,在运算中途发生错误从而被迫退出。


         

  值得一提的是在2006年,ATIX1000系列表现出了相当惊人的浮点运算能力,并拥有良好的GPGPU架构。ATI20068月宣布将联手斯坦福大学在其Folding@Home项目中提供对基于ATI Radeon X1900 GPU通用计算的支持。从此开始,用高性能显卡来进行通用计算走入了硬件爱好者的视线,GPU通用计算再也不是什么神奇高深的东西,通过参与Folding@Home,你可以体会到它就在我们身边。

  PS3游戏机由于使用了浮点运算能力极高的CELL处理器,也加入了Folding@home玩家只要打开相关选项,即可成为该项目的重要贡献者。NVIDIA086宣布旗下基于G80及以上核心的显卡产品都支持该项目的通用计算,更是对分布式计算的重要贡献。



三、项目参与程度

  目前Folding@Home已经成为全世界最有影响力和公信力的项目,同时是各大厂商和机构鼎力支持的项目,当然它毫无疑问地拥有最广大的志愿者团队——截止2009524共计1,239,493人参与该项目,最近的统计显示志愿者贡献的总运算能力已经达到了5PFlops,远超现在全世界最快的超级计算机IBM Roadrunner(最高性能1.026PFlops)。

  该项目在中国拥有约2000多名参与者,其中最强大的China Folding@Home PowerFolding@Home中国力量,团队编号3213团队拥有2066人,最近活跃用户204人,目前贡献计算量排名世界第64位,团队整体运算能力约为30TFLOPS。通过论坛http://www.equn.com/forum/forum-21-1.html,我们可以了解更多Folding@home项目和3213团队的更多信息,也可以更方便的和分布式计算爱好者共同交流。

  志愿者们通过坚持不懈的运算,让全世界很多玩家知道了China Folding@Home Power团队,向全世界展示着中国玩家的分布式计算力量。目前在中国团队,显卡运算的贡献比例比重已经超过90%GPU用自己特殊的架构完成了不可思议的工作量,也证明了GPU架构在大规模多线程运算中的优势地位。



四、项目研究成绩

  Folding@home项目在最新的研究进展中包含了很多令人兴奋的结果,比如成功模拟了HIVAIDS艾滋病病毒)整合酶的DNA粘合结构域的展开。HIV使用蛋白质把它的遗传代码插入我们的DNA中。HIV 整合酶的 DNA 粘合领域是HIV用来锁定我们的DNA 的蛋白质,了解其展开过程将让我们从本质上揭开HIV病毒侵蚀细胞的核心过程。



        

  图为蛋白质分子复杂程度和预测折叠速度的关系。由Folding@home项目的结果,科学家可以准确预测小蛋白质的折叠速率。

  在http://folding.stanford.edu/English/Papers页面,我们能够看到该项目目前已经取得的所有研究成果,这个页面是随时更新的,更多的论文和研究进度细节都能被所有人公开获得。

  下面节选一段最新的Folding@home项目论文(第61号论文):

  利用计算筛选确定流感红血球凝集素蛋白质重要变异并公开其结构(26XX任务段的成果)。下载地址:http://psb.stanford.edu/psb-online/proceedings/psb09/kasson.pdf

  流感红血球凝集素蛋白质的主要作用是绑定目标细胞,并破坏细胞膜将病毒基因注入目标细胞。因为长时间以来H5N1H1H3以及乙型流感病毒外壳的细微差别很难被精确的区分出来,通过大致结构的区别并不能使人们对掌握H5N1对人类细胞的入侵过程。通过2600+任务段的模拟,目前斯坦福已经完成了各种流感病毒外壳结构来的比对和筛选,对应的病毒对人类细胞的完整侵蚀过程的模拟目前仍在继续中。

  我们在网上进行了简单搜索,找到了中国大量生物、医药类研究引用了Folding@home的研究成果。

如:《药物发现网格设计与实现》
张文举[1] 陈曙东[1] 刘了[3] 马范援[1] 沈建华[2]
[1]上海交通大学计算机系,上海200030 [2]中科院上海药物研究所,上海201203 [3]江南计算技术研究所,无锡214083
http://www.cqvip.com/qk/95200x/2006011/21997637.html
《一种分布式网格计算框架以及在大规模分子动力学模拟中的应用》
王文睿[1] 陈国良[1] 邢利荣[2] 陈华平[1] 孙广中[1] 单久龙[1]
[1]中国科学技术大学国家高性能计算中心,安徽合肥230027 [2]上海电力学院数理系,上海201300
http://www.cqvip.com/qk/95659x/2006007/22207692.html
GROMOS96分子动力学模拟的并行优化算法》
王文睿 陈国良 孙广中
中国科学技术大学计算机系国家高性能计算中心,合肥230027
http://www.cqvip.com/qk/94257x/2004001/9223909.html

  同时国内有研究蛋白质折叠的学校、科学院也非常多,学生也很多。学校和研究室有:北京工业大学生命科学与生物工程学院 “分子设计与蛋白质组学”研究室

  主要研究方向:用分子模拟与实验相结合的方法研究蛋白质分子结构和动力学性质以及结构与功能间的关系,设计具有新功能的蛋白质和药物。目前主要开展:(1)抗HIV药物设计与筛选;(2)蛋白质-蛋白质相互作用与识别研究;(3)蛋白质折叠机理的研究;(4)酶生化实验。这些都属于21世纪生命科学的热点研究领域。
http://bioinformatics.bjut.edu.cn/chinese/school_research/lab/lab3.htm
相关文章有:清华举办蛋白质折叠讲座暴满
http://news.tsinghua.edu.cn/new/news.php?id=3799
福州大学蛋白质折叠课件
http://met.fzu.edu.cn/eduonline/protein%20chemistry%20net/china/bjkc/ja8.html



五、分布式计算的特点与意义

  志愿者计算(Volunteer Computing)通常是指很多志愿者共同参与一些大型的分布式计算项目。它是一种利用遍布全世界的普通民众的运算资源,让一般志愿者参与并提供计算和存储资源的计算项目。

  分布式计算(Distributed Computing)是计算机科学的一个重要分支,它主要研究如何把一个需要巨大的计算能力才能解决的问题分解成许多小的部分,然后把这些部分再分配给许多志愿者计算机进行处理,最后把这些计算结果综合起来得到最终的结果。通过因特网,志愿者分布式计算将世界各地成千上万位志愿者的计算机的闲置计算能力整合起来,创造了无数奇迹!

  志愿者分布式计算听起来似乎有些神秘,但实际上它们离我们并不远,甚至就在我们身边。目前分布式计算项目已经有很多,涉及到天文学、生命科学、数学、计算机科学等诸多学科,而且许多还是科学研究的前沿领域,或是能引起人们持久兴趣的方面,如地外文明,生命起源等。多数项目,只要你有兴趣,通过下载安装一个很小的客户端程序就可以参与进去。只要你参与的是正规的分布式计算项目,当然可以和研究人员一样平等地获取项目进度和运算结果。


         

  分布式计算就是这样一种倡导自由参与、量力贡献、平等分享的开放性计算方式。开发者用项目的优势特别是公益性,同时借助自己的影响力和权威性来吸引志愿者的参与,同时让每一个参与者知道自己做了什么贡献,这个项目的进展情况如何,现在得出了什么样的运算结果,有的项目在结束后还会公开源代码。由于分布式计算的开放性,所有基于计算结果的研究成果将使全人类受益。

  从理论上说,分布式计算所蕴藏的计算能力是无止境的,因为它可以通过网络将世界任意角落的计算机囊括进来,只要发起者有足够的号召力或强制力就成。而志愿者分布式计算非常形象的口号也是模仿《共产主义宣言》——“全世界计算机,联合起来!”



六、参与分布式计算的担心和误解

1、志愿者分布式计算完全是浪费能源

  有很多未参与运算的朋友们会抱有这样或类似的想法,因为相比超级计算机,我们的PC能贡献的力量微不足道。特别是一些运算量巨大的项目比如,即使是参与者在运算了几个月后没有任何重大发现,也会发出这样的感慨。一些有争议的项目比如SETI@home更是如此,经常能看到有人争辩说即使是搜寻到了地外文明,人类又能做些什么,有什么意义。

  我建议大家要从另外一个角度分析,比如说一台每天开机12个小时的电脑,其中CPUGPU被真正完全利用的时间可能不足1个小时甚至几分钟,其余时间都是在做负荷很低的运算操作,与其让剩下的CPUGPU资源在那里“等待”,不如让它们发挥功效,在闲暇时进行运算。

  有很多人说分布式计算中硬件工作产生的热量、消耗的电能带来的排放是对环境和生命有害的,但是在这里还是要提醒大家,分布式计算利用的是电脑的闲置运算能力,CPU和GPU闲暇时同样在制造排放和辐射,这是你我不可避免的。在志愿参与分布式计算时请提醒自己:计算是因为开机,而开机不是为了计算,请节约能源。特别是生命科学类项目中,我们坚信每增加一台电脑参与运算,每多运算一分钟,我们离成功就越近,有可能挽救无数在死亡线上挣扎的生命。

2、我无私地运算,项目方却将这些结果封闭,甚至用来卖钱

  可以肯定地说,如果你参加的是一个正规机构主导的,同时在全球具有广泛认可的项目,完全不会出现这种情况。任何分布式计算就是借助志愿者的力量来完成积累,因此任何项目都承诺将结果完全无隐瞒地分享给公众,如果不公开运算结果,那有谁会参与运算?有谁会坚持不懈地支持?

  对一些大型科研机构主导的有一定历史的分布式计算项目,我们在仔细了解后确认放心即可参与。同时要看它的科研实力和结果披露情况,这一切都写在项目网站上,参与者仔细分析即可获得非常明确和公正的判断。对于一些商业实体提出的用于其他目的的分布式计算项目,如果运算结果为服务于自己的商业活动并且带对参与者有大量物质奖励,则需要仔细审视。

  同时我们可以思考这样一个简单的道理,计算机发展速度飞快,运算能力提升显著,分布式计算项目也同样很多,而且这些项目都是基础性科研,短期内不会有非常重大的科研成果。一方面随着时间的流逝,这些基础性的东西早晚都会有人做出来。另一方面基础性研究不会直接导致实际作用,所以将基础性研究结果放在自己手里是非常愚蠢的做法,不但没有任何价值,只能慢慢烂掉,反而会招致舆论和参与者一致反对最终走向死亡。

3、分布式计算安全吗?我能获得相关的运算结果吗?我参与运算能得到证明吗?

  问题的答案都是肯定的,参与者当然可以实时了解项目的进展情况。同时我们应该参与正规地分布式计算项目,而且要从正规的网站,如官方网站或权威性的专业网站上下载客户端程序,这样下载的程序才更可靠。


        

  这里推荐大家去中国分布式计算总站了解更多信息:http://www.equn.com/,这是中国分布式计算方面著名的科普性质的非盈利站点。它由一群乐于奉献、热心于网络公益性分布式计算项目的爱好者共同创立。同时它和国外的多所著名大学及权威研究机构建立有良好的合作关系,是国外绝大多数分布式计算项目的主持机构指定的中国唯一官方网站。

  原始的运算结果是一些数量相当庞大的数据,往往都经过了加密,即使获取后一般人也无法看懂。但是项目的主持方还是会把项目的细节进程和相关论文公开在网站上,供所有人查阅。这些结果一般在项目网站的“研究”或“成果”页面上公布,任何人可以自由查阅。同时一些分布式计算在完成后,还会公开源代码。正是这些信息的及时披露,让更多人有兴趣参与其中。



[ 本帖最后由 cicikml 于 2009-5-25 21:16 编辑 ]
回复

使用道具 举报

 楼主| 发表于 2009-5-25 20:22:53 | 显示全部楼层
希望这个能让大家满意,也能引起硬件爱好者的关注,提起他们的参与兴趣。
文中有不合适的地方还请大家指正,我及时修改。谢谢各位!
回复

使用道具 举报

发表于 2009-5-25 20:54:10 | 显示全部楼层
我们可以了解更多Folding@homo项目和3213团队的更多信息

其中CPUGPU被真正完全利用的时间

与其让剩下的CPUGPU资源在那里“等待”,

CPU/GPU闲暇时同样在制造排放和辐射,


上面几处红色部分修改下,排版没有WORD原版里美观整洁,论坛里使用3号字体有点大,要是笔记本看就更不舒服了,建议改成1号和2号字结合.


兄弟辛苦了!

回复

使用道具 举报

 楼主| 发表于 2009-5-25 21:17:39 | 显示全部楼层
恩,已经按照金鹏兄的建议修改了。
回复

使用道具 举报

发表于 2009-5-25 22:25:10 | 显示全部楼层
标题有点意思。突然发现自己潜意识里确实有点这个想法。虽然实际计算的过程并没有那么酷,甚至如果自己太投入了会发现很枯燥。但自己没有那么投入的时候支撑自己一直坚持的一个原因就是因为这种计算很特立独行,很闷骚的不需要跟别人说自己知道就好的那种酷。呵呵。

项目参与程度那段不错。比较有说服力。不过不太相信我们3213中GPU贡献超过90%。如果真是就是我们太缺水鬼这样的人物。老实说我觉得GPU算FAH有点傻快傻快的感觉。最好还是有点CPU,不要太偏门。要不就会象潮水一样忽涨忽落。感觉CPU计算的FAHer心态更淡定一些。

“中国大量生物、医药类研究引用了Folding@home的研究成果”——楼主真是有心人。这是我们很多FAHer从来没有注意到的一点。好现象。希望以后不仅仅引述FAH这个项目,而更多的是直接利用FAH的成果,如果STU真的是那么坦诚的将所有计算结果都公布出来的话。老实说这一点我一直不敢完全相信。

“计算是因为开机,而开机不是为了计算,请节约能源。特别是生命科学类项目中,我们坚信每增加一台电脑参与运算,每多运算一分钟,我们离成功就越近,有可能挽救无数在死亡线上挣扎的生命”——这话写的多好啊。对端正进入FAH计算领域的FAHer的心态非常有帮助。如果一开始就是抱着这个心态,那么坚持下去的可能性就大大增加了。

担心的误解一节中的2我也有疑虑。只是没有看到别人利用FAH项目的计算结果,特别是没有中国人利用这些计算结果让我心里有些硌硬。虽然项目是世界性的,但毕竟我是中国人,我在用中国的资源(电能)来计算,我希望至少有人去利用他们,特别是我的祖国。

总体感觉写的很好。既有很fancy的地方,也毫不回避一些关键的问题(结果利用,计算是因为开机,开机不是为了计算等等),对这些问题也有很客观的见解。

表扬一下楼主的辛勤努力!

评分

参与人数 1基本分 +10 收起 理由
金鹏 + 10 我很赞同

查看全部评分

回复

使用道具 举报

发表于 2009-5-25 22:38:56 | 显示全部楼层
又看了一遍楼主的帖子。感觉我们的宣传文章写的越来越有水准了。既体现了这个项目的意义,又回答了一些潜在FAHer担心的问题。

我刚才甚至突发奇想:如果有一天我们发现STU没有公布所有的数据时(相信行内的人是可以看出门道的,只要有人真的准备去利用这些数据时,一定可以看出来的),我们就一起组织去“散步”(大伙知道虽然宪法规定我们有这个权利,但在中国这么敏感的地方没有人愿意说那个词儿,更不用说为了这种事儿而去)。开头是“散步”但后来就变成了大伙的聚会。因为我们运行了这么长时间的FAH,还从来没有机会聚在一起聊聊、玩玩呢。也许一起“散步”正好是一个聚在一起的机会。大伙边走边聊,最后一起聚餐。然后还有媒体来采访。发现我们居然如此另类的为了这么点小事而“散步”,觉得没有新闻亮点而作罢。好在大家自娱自乐,也不在乎别人如何看。还好从始至终都没有引起任何强力部门的关注和其他的麻烦。回来论坛上热闹的很,照片一堆,帖子一堆。欢笑中此事渐成往事。

呵呵,我的脑瓜有时就喜欢想一些比较有趣、但现实中也许永远实现不了的事情。不过想想也是蛮有意思的。YY了一点。给大伙逗个乐子。
回复

使用道具 举报

 楼主| 发表于 2009-5-25 23:22:10 | 显示全部楼层
呵呵,谢谢shouldbe鼓励。听你这么一说我也对宣传工作更有信心了!
对于GPU运算量占比的估计,我会再仔细看看,要不然就改成:
目前在中国团队,显卡已经成为相当重要的运算贡献者,GPU用自己特殊的架构完成了不可思议的工作量,也证明了GPU架构在大规模多线程运算中的强势地位。(数字变模糊,“优”变“强”)
回复

使用道具 举报

发表于 2009-5-25 23:57:25 | 显示全部楼层
目前在中国团队,显卡运算的贡献比例比重已经超过90%,


shouldbe 兄弟说的极有道理,这个数字有待商榷,而且与重在参与本意有点冲突,cicikml 兄弟改动到7楼措辞比较合适
回复

使用道具 举报

发表于 2009-12-29 04:58:56 | 显示全部楼层
cicikml同学,我引用一部分做关于F@H的文章去了哈,大概1月下会出刊,叫喊了一年终于可以写写关于F@H的东西……真不容易!
回复

使用道具 举报

 楼主| 发表于 2010-1-4 16:57:24 | 显示全部楼层
原帖由 alpha707070 于 2009-12-29 04:58 发表
cicikml同学,我引用一部分做关于F@H的文章去了哈,大概1月下会出刊,叫喊了一年终于可以写写关于F@H的东西……真不容易!

完全可以,请随意引用。
回复

使用道具 举报

发表于 2013-11-30 21:24:51 | 显示全部楼层
不错不错
回复

使用道具 举报

发表于 2013-12-29 14:34:42 | 显示全部楼层
额~~~主贴的图MS全挂掉了。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-3-29 23:37

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表