中国分布式计算论坛 » Einstein@Home » Einstein@home 以后有可能支持 CUDA~

2008-6-20 23:48 Youth
Einstein@home 以后有可能支持 CUDA~

有人问到eah有没有考虑支持一下最近挺热门的gpu计算,然后Bernd老大回了篇:


[url]http://einstein.phys.uwm.edu//forum_thread.php?id=6720&nowrap=true#84907[/url]

I got some code from a masters student who worked on porting the FStat engine to CUDA. Looks like a factor of 7 speedup, but he's still struggling with the few calculations in there that require double precision. There might be an App some time during S5R4.

我从一位研究生那拿到一些代码,他做了些工作,把FStat引擎移植到CUDA,看上去大概有7倍的速度提升,但有些需要双精度的计算还没搞定,等我们项目进行到S5R4阶段的时候,可能会有GPU版的计算程序吧。


然后有人建议,如果双精度计算是必须的,可以把GPU限制在G200系列...[em03]

2008-6-20 23:58 DrLingCN
不能限定在G200系列啊!
一定要所有支持CUDA的卡都支持计算!

2008-6-21 00:11 sakeki
限定G200可以,但起码得推迟一年才有足够用户。

2008-6-21 10:12 chenbang
回复 #1 Youth 的帖子

速度有7倍的提升啊,很诱人哦!

2008-6-21 11:29 zglloo
看来E@H 也要向GPU靠拢    那么SETI WCG  R@H早应该  也来这几个项目 也应该可以 移植把!

2008-6-21 12:18 Youth
估计还是看适合不适合吧。

昨天翻boinc官方的文档似乎是已经支持项目方使用gpu的计算程序(服务端和客户端应该都得用6系才行),但也提到一个问题,似乎没有办法知道其它程序是否在使用gpu(How does BOINC know if non-BOINC applications are using resources? )。

2008-6-21 23:15 Bismarck
如果能把GPU的流处理器都分组并赋予不同的工作,那还是可以的

2008-6-23 21:58 refla
那ATI的1000、2000、3000系列咋样?

2008-6-23 22:32 Youth
cuda也好,ati的卡也好,对eah来说应该都还早吧,遥远地期待一下就好了:)

2008-6-24 00:03 refla
嗯,有道理。特别是不支持双精度类型,对于科学计算那可是致命伤。

2008-6-24 08:59 Youth
Posted 23 Jun 2008 13:36:08 UTC

There are rather few of them. Right now I'm not sure that supporting GPU is worth the effort at all. Anyway, I'm pretty sure that the remaining issues can be resolved by emulating the double precision e.g. with two floats or a float and an int. But first you'll have to find out what precisely goes wrong, and that's where we're stuck atm.

应该是需要双精度计算的地方并不多,目前还不确定支持GPU是否有必要,但我确信剩下的问题应该可以通过用两个单精度浮点数或一个单精度浮点数加一个整数来模拟双精度计算来解决,但首先还是必须搞清楚问题倒底在哪。

2008-6-26 07:54 Youth
Posted 25 Jun 2008 18:30:19 UTC

There is no standard for GPU computing (yet). Picking one particular model: how many Einstein@home participants do have an NVidia Quadro card that they want to actually use for crunching? Remember that displaying anything is not (yet) possible when using the GPU for numerical calculations.

GPU计算还没有一个标准。会有多少EAH的用户拥有Quadro显卡并且愿意拿来计算呢?要记住使用GPU进行数据计算的时候是不能显示任何东西的(直译,意思应该是说计算时给显卡带来的负担比较重吧)。

As far as I understand the Folding@home application is based on Brook or some similar higher level language, the Einstein@home application is (currently) not. Our "Fstat engine" could be thought of as an FFT for narrow frequency bands. It's actually possible to use standard FFT implementations to calculate it, but in the current framework this would be rather inefficient. The current code was chosen for Einstein@home because it allows us to split the frequency bands into many small pieces (workunits), keeping computing time and data transfer volume within the bounds of a volunteer computing project.

就我(Bernd)理解,FAH的程序是基于Brook或类似的高级语言,EAH目前还不是。我们的Fstat引擎可以认为是窄频段的FFT(快速傅立叶转换)。使用标准FFT也是可以的,但在目前的框架下将会效率不高。EAH选择当前的代码是因为它允许我们把频段分为很多小块(任务包),使任务包的计算时间或数据传输时间在志愿计算项目能允许的范围内。

Pinkesh Patel (a LSC member) is working on a program that actually uses standard FFT algorithms (I think with little modifications) for calculating the F-Statistic, but his code isn't ready to be used yet (at least not on E@H), using it would require a completely different search- and workunit design, and it would be much more demanding for machines and their connection to the servers than what we currently expect our participants to have.

LSC的一位成员正在写一个利用标准FFT算法(我认为会有些小改动)的程序来计算F-Statistic,但是他的代码还没准备好使用(至少对于EAH),使用它将需要对项目进行完全不同的搜寻和任务包设计,并且将对用户的计算设备和网络连接带来高得多的要求。

I definitely think that using high-level languages / libraries like Brook that have efficient implementations for every platform is the way to go in the future, but for the moment (i.e. S5R4) we need to stick to what we have.

我非常确信使用Brook之类的在各个平台都能有不错效率的高级语言或语言库是大势所趋,但就目前来说(比如S5R4),我们还得像之前一样。


// 看来S5R4能出GPU版的希望基本破灭了...

2008-6-26 08:41 BiscuiT
在DX11出来之前只能用 FAH 安慰gpu的分布式计算。。

2008-6-27 08:10 Youth
Posted 26 Jun 2008 11:50:34 UTC

[quote]I understand that even for Folding@Home, the workunits crunched by the GPU beta clients are different from those for the other platforms. But they did manage to do visualization and GPU processing at the same time now, so that you can still use your PC's video capabilities while crunching, which should improve acceptance.[/quote]

That's quite amazing. I've been told that this is impossible.

Actually running a second Application (and Workunits) on the same project is quite possible on BOINC, though I don't know how many projects actually do this (I could imagine Leiden Classical). Erik Korpela is visiting the AEI this week, he told us that SETI@home will run Astropulse as a second Application some time soon. We're currently looking into implementing it, it might become an option for Einstein@home, too. This way we could actually run a "stream computing" search in parallel.

看来前面那句直译的没问题。。。

Bikeman提示说FAH那边在计算时是还可以显示图形的,另外就是,FAH那边GPU的客户端也和普通的客户端不同。

BM说他也已经听说了,说是也可以考虑项目中同时使用两个计算程序。

2008-6-27 23:08 zglloo
回复 #13 BiscuiT 的帖子

DirectX 11当中,解决GPU内部浮点渲染精度不统一的问题,达成32bit浮点渲染精度,为不同厂商GPU使用相同的通用计算驱动程序和API  D11到底是否能达到如期效果还是需要怀疑下

2008-6-27 23:26 Youth
现在不怎么玩游戏,dx也没怎么关注了,11在gpu计算上有什么特性? zglloo说的32位精度还只是单精度?双精度呢?

2008-6-29 21:53 refla
回复 #12 Youth 的帖子

Apple已经在牵头做一个叫做OpenCL(开放式计算语言)的接口,这个接口是基于C语言的一组API,用于针对GPU、CPU并行计算进行编程的全免费开放行业标准。它追随者包括AMD, NVIDIA,ARM, Intel、IBM和Motorola(看看,所有GPU和CPU的老大都到齐了[em11] ),甚至连Nokia也加进来了[em07] 。唯一的遗憾是没有看到M$的大名,这非常让人担忧OpenCL会否与它的前辈OpenGL一样,在Windows平台上被M$封杀。[em21]

[[i] 本帖最后由 refla 于 2008-6-29 21:58 编辑 [/i]]

2008-6-29 22:08 refla
回复 #12 Youth 的帖子

“GPU进行数据计算的时候是不能显示任何东西的”,你翻译的没错,这可能是CUDA的Bug吧?我用X1650算FAH时,显示效果呀?...那是相当的好....

2008-6-29 23:03 Rojer
[em25] 攒钱中....

2008-7-8 12:20 universebreaker
想當年,那條秦皇老鬼來招"全民皆兵"
就搞定了天下
今日,我們都要參考他的模式
來一招"全u皆算"!
恐怕會引發一場科學大革命XD...

2008-7-8 15:19 zglloo
回复 #16 Youth 的帖子

去年11月初,AMD发布了其第二代流处理卡产品,基于RV670核心的“[url=http://news.mydrivers.com/1/94/94426.htm]FireStream 9170[/url]”,同时这也是业界第一款支持双精度浮点运算的GPGPU核心。
需要注意的是,虽然流处理卡和超级计算机的浮点性能都用GFLOPS和TFLOPS做单位,但并没有直接可比性,因为两种产品的运算指令、性能计算方法都有所差别。显卡厂商宣传的都是峰值数字,是GPU核心内所有运算单元一起运行最简单指令时的性能水平,实际性能就是另一回事儿了。
AMD称,FireStream 9170的单精度FP32性能最高可达500 GFLOPS,同时支持双精度FP64,但却没有提及第二种情况下的性能。
[img]http://news.mydrivers.com/img/20080202/S03044188.png[/img]
TGDaily采访了多位业界专业人士和开发人员,他们都说就算双精度FP64的计算性能只能达到单精度FP32的十分之一,就足以让他们乐开怀了。显然,双精度计算现阶段的实际表现还差得很远。
原Beyond3D网站主编、现已加盟AMD-ATI的Dave "Wavey" Baumann表示,RV670芯片的确支持双精度FP64,但却没有专用的运算单元,而是使用单精度FP32单元模拟计算的,这显然需要多耗费一些时间。根据实际应用的复杂度不同,FireStream 9170的双精度FP64性能最高约为250GFLOPS,相当于单精度的一半,而在最坏的情况下则只有单精度的四分之一,也就是125GFLOPS左右。尽管如此,这对于一个非原生双精度FP64的核心来说已经是相当不错的表现了。
另外,NVIDIA的通用计算平台Tesla在发布时仅支持[url=http://news.mydrivers.com/1/85/85747.htm]单精度FP32[/url],当时宣称去年底即可支持双精度FP64,但至今没有进一步的消息,也不知道其实现方式是否原生。

[[i] 本帖最后由 zglloo 于 2008-7-8 15:21 编辑 [/i]]

2008-7-8 15:27 zglloo
对于前面refla 所说不支持双精度类型 N卡和A卡都有产品 比如最近的GTX280,下面这篇译文中很好的说明了
[url]http://bbs.zol.com.cn/index20080618/index_231_234354.html[/url]

前几天在计算机板块发布的“[url=http://www.equn.com/forum/viewthread.php?tid=18800&extra=page%3D1]24块显卡并行工作能不能满足你的需要呢?2160块又怎么样[/url]? ”
其中 “BiscuiT ”说[color=Blue]也就是说2160块 4870x2 的话,最大FP64性能是 [color=Red]0.864 PFlops [/color]。。还不够击破 Roadrunner 。。[/color]

如果这些项目中有了部分通用于GPU而且效果好的 并且开发难度和成本来讲,GPU以几何数量加以利用那么TOP500上的第一的超级计算机可以由大量GPU完成

[[i] 本帖最后由 zglloo 于 2008-7-8 15:37 编辑 [/i]]

2008-7-14 19:43 refla
回复 #22 zglloo 的帖子

主要是在开发难度上,这包括软件和硬件方面的。Intel对GPGPU不屑一顾的重要依据就是,程序员不习惯新的架构。

2008-7-17 16:55 Youth
刚从邮件列表中看到boinc客户端这边在6.3/6.4应该就能支持cuda了,说主要是配合一个准备使用cuda的项目,还不知道是啥

2008-7-18 00:44 zglloo
回复 #24 Youth 的帖子

哦 即将支持boinc?  看来是好消息呢

2008-7-18 09:30 Youth
呵呵,应该反过来说吧,是boinc支持cuda:)


结果揭晓了,不算是新项目,是原来的ps3grid新增了对gpu计算的支持。

2008-7-27 07:50 refla
希望其它项目也尽早支持,不过...显卡的发热量可是相当可观的啊!

2008-7-30 01:18 老吴
[quote]原帖由 [i]refla[/i] 于 2008-7-27 07:50 发表 [url=http://www.equn.com/forum/redirect.php?goto=findpost&pid=253119&ptid=18614][img]http://www.equn.com/forum/images/common/back.gif[/img][/url]
希望其它项目也尽早支持,不过...显卡的发热量可是相当可观的啊! [/quote]
我大型游戏玩的不多
所以真的很难想象,显卡100%工作时是个什么发热量
况且说,应该也没有什么游戏可以100%利用显卡资源的吧

2008-7-31 09:46 zflowers
等出了 5850就买一个

2008-8-1 19:47 refla
回复 #28 老吴 的帖子

在室温30度下,用显卡来算F@H的包,10分钟后,显卡风扇吹出来的风,都是烫手的。

页: [1] 2


Powered by Discuz! Archiver 5.5.0  © 2001-2006 Comsenz Inc.