中国分布式计算论坛 » 计算机技术讨论区 » 24块显卡并行工作能不能满足你的需要呢?2160块又怎么样?

2008-7-6 16:36 zglloo
24块显卡并行工作能不能满足你的需要呢?2160块又怎么样?

今年4月份的时候,国外一位名叫Janne的牛人自己动手DIY了一台包含了6块Core 2 Quad CPU、8GB内存的微型计算机集群,在当时引起了不小的轰动(具体报道看[url=http://www.cnetnews.com.cn/2008/0602/898596.shtml]这里[/url]),甚至还引起了Google的关注。最近,Janne准备把这个想法继续发扬光大,他计划在原先的基础上进行一些修改,试图构建一台可以让24块显卡进行并行工作的超级渲染机器,而他的这个想法已经得到了AMD的支持,公司将会为他提供所有的必要硬件。更为疯狂的是,Janne的野心远远不止如此,他甚至已经准备好了一个可容纳2160块显卡的超级渲染集群的蓝图。



Janne将这个24显卡的渲染机器命名为“The Renderer”,计划中需要的硬件有:24块 Radeon HD4870X2 或 Nvidia 9800GX2显卡、6块 MSI K9A2 V2 主板、6块 AMD Phenom quad 9850 CPU、数十G的内存、6个1500-2000w的电源、大量的铜质散热管以及9平方米的铝板(其中3平方米用于散热)。让这些东西在软件上进行并行工作 并不是什么问题,关键还在于硬件上的构成,下面是Janne的设想(最初的原型,最新的改进是缩短了散热管的长度):

首先将显卡和CPU的风扇全部去掉,用铜质散热管代替:
[img]http://photo1.bababian.com/upload9/20080706/1E3C8E10FD984A2B1B1365FCCA48EC77_500.jpg[/img]
机箱四面全部覆盖铝质散热器:
[img]http://photo1.bababian.com/upload9/20080706/0F15A0B1B20924D23CB0F0A123EBA393_500.jpg[/img]
显卡的GPU和主板上的CPU与散热管紧密接触:
[img]http://photo1.bababian.com/upload9/20080706/673125FA652D0B6CD0135C8882F4F13D_500.jpg[/img]
每一层按类似布局向上叠加,机箱四周全部加风扇辅助散热,由于数量很多,因此风扇的转速并不需要太高。
[img]http://photo1.bababian.com/upload9/20080706/610CB6E2E4966C872BC8DB441AB78989_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/F131263347CDB611985C39ED8753E8B9_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/94A97811ABEDD3F1A36444F229BA554C_500.jpg[/img]
最终版本:
[img]http://photo1.bababian.com/upload9/20080706/DA74FB9BDCB1A0440C85157EE1F5BBFF_500.jpg[/img]
预计这个渲染机器的运算速度会达到50T FLOPS。

  如果说这个想法还不能让你满意的话,那么Janne的名为“River”的由2160块显卡构成的超级集群能不能满足你呢?(为什么叫 River?因为这个系统真的建成的话,可能会需要一条河来提供散热。囧)预计这个系统的计算速度将达到惊人的4P FLOPS,[color=Red]比目前最快的超级计算机“Roadrunner”还快4倍[/color](有些夸张),我想这个设计蓝图该不会有公司来赞助了吧。Janne的想法如下:

  使用支持4显卡的主板,以3块主板为一组,将3组挂载了显卡的主板安装在一个正八面柱全铜箱体内,每块GPU和CPU都与铜质箱体侧面良好接触:
[img]http://photo1.bababian.com/upload9/20080706/B87B52485C8089AF5D3952F8D58B2B8A_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/3E8011B0954674163CF8C95C50B4ACD2_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/83EAAF501B9E69373B3B548CF7D83344_500.jpg[/img]
在箱体内向上叠加6层:
[img]http://photo1.bababian.com/upload9/20080706/BDDE01263E7616F6C0845BFC56A1E0B4_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/0CF705AE7CB5EF97BF70504FD7AE187D_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/E81F5F11A115E5D82EA0E4E233FD064D_500.jpg[/img]
将10个这样的箱子堆放在一起,铜质表面之间紧密接触,中间加入水冷管散热:
[img]http://photo1.bababian.com/upload9/20080706/AEF67695EA252ADFA1499089738A2ADB_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/C33221138170C79E8AEC394E8F738289_500.jpg[/img]
此系统总共需要40000W的电源进行供电,如果可行的话,成本大概只要90万美元左右。不知道4P FLOPS的超级计算机是不是真的会来得如此容易。

  相比起来,24显卡系统还是要现实得多,要是Janne真的能够做出这个强大的渲染机器的话,之前报道过的[url=http://www.moonshinefly.com/2008/06/01/8gpu-super-computer/]8GPU FAST[/url]RA系统也不过是小巫见大巫而已。

[[i] 本帖最后由 zglloo 于 2008-7-6 23:22 编辑 [/i]]

2008-7-6 17:48 chenbang
6块 AMD Phenom quad 9850 CPU??????????
这个是什么概念?

2008-7-6 19:16 Tynox
好吧,拿它来做计算,不要浪费.!!!

2008-7-6 22:49 BiscuiT
这个 4 PFLOPS 很有水分。。。是单精度FP32的峰值。。(不过没还水到尽。。

按 Nv 的 Tesla S1070,FP32峰值达 1080 GFlops
Ati 的 FireStream 9250,FP32峰值达 1250 GFlops

但如果是双精度FP64性能。。
Tesla S1070 只能达到 100 GFlops,FireStream 9250 好点有 200 GFlops。。

也就是说2160块 4870x2 的话,最大FP64性能是 0.864 PFlops 。。还不够击破 Roadrunner 。。

2008-7-6 23:18 zglloo
回复 #4 BiscuiT 的帖子

Roadrunner  这个是文中的说法 我也很质疑超越 现在世界最快的计算机 但是想象‘走鹃’的硬件数目摆在哪里 也是差距比啊 2160个GPU也很玄
[url]http://www.cnbeta.com/article.php?sid=59614[/url]

[[i] 本帖最后由 zglloo 于 2008-7-6 23:26 编辑 [/i]]

2008-7-6 23:36 BiscuiT
回复 #5 zglloo 的帖子

应该是炫不是玄咯~
记住 Tesla S1070 和 FireStream 9250 。。它们就是 GPGPU 的前驱们~

2008-7-8 15:52 zglloo
回复 #6 BiscuiT 的帖子

ye 是炫 超级炫  他的硬件平台是4路显卡 如果定制 可否超过这个数量
还有他的圆筒集群是10组 那么如果10^10!!!!当然最大FP64性能是 0.864 PFlops 这是最大情形 比起来还是会比Roadrunner 划算还价格低些,我觉得他的水冷想法很好!

2008-7-8 18:03 BiscuiT
这家伙本来就是组合家用产品来达成性价比。。定制的话必然成本飚涨。。

家用顶级芯片组的pice通道数量好像暂时也就到48条通道(就算到高端双路服务器版本,好像也是去到56个通道)满足不了4卡16x。。就如他之前采用的MSI K9A2 Platinum V2。。4卡组合都是8x模式
4870x2 挂 8x 档不知性能会下降多少。。特别这种做HPC的。。带宽比独立的性能重要。。

水冷跑管子会很复杂。。电源跑线也很复杂。。囧

2008-7-13 17:50 BiscuiT
R700 Supports 4-way Crossfire X

[url]http://www.techpowerup.com/65649/R700_Supports_4-way_Crossfire_X.html[/url]

Yes, you read that right. You can use upto four HD4870 X2 accelerators in tandem for an 8-GPU, 9.6 TFLOP, 8 GB graphics crunching monster. You need a 4-slot motherboard though. There are 4-slot solutions available on the AMD 790FX platform, for Intel though X48 did support 4 slots and images of prototype X48 boards with 4 slots did surface months back, there isn't such a board out yet. You do have the Skulltrail platform and upcoming X58 Bloomfield-supportive boards do promise to come in 4 slot flavours.

In a press-conference, Raja Koduri, worldwide CTO (Products Group), AMD talked to Indian website TechTree, among minor revelations such as "Fusion in 2009", here's a shocker:

"AMD has already built a computer that has four 4870X2s in it. So it has eight GPUs; drivers will not be supporting eight GPUs at this point of time."

-Implies that AMD is fully geared up to go head on against GT200b whenever it comes up. It's all a matter of them releasing a supportive driver. Again, unreliable sources point towards the possibility that also in the pipeline could be a R700+ which could be based on 'Super-RV770XT' processors. If you thought you're witnessing the peak of the GPU battle for supremacy, hold on, you're only getting appetised.


既然 8GPU CF 是可行的,芯片组也要升级支持到 64条pice通道的了。。驱动也要跟进。。
(怪物。。电源压力好大。。囧

[[i] 本帖最后由 BiscuiT 于 2008-7-13 20:31 编辑 [/i]]

2008-7-14 02:25 zglloo
8个可行!   但是现在有可用的芯片组吗?   但是原有的芯片组升级确实很麻烦不过看到这个消息很兴奋呢!  我在想如果可以的话在主板中 应该可以添加到16/32/ 数量应该是可行的

2008-7-14 08:36 BiscuiT
回复 #10 zglloo 的帖子

790FX、X58 都支持4个x8的CF,将就一下可以用

2008-7-14 19:37 老冬腌菜
饼干,把整篇文章的dz代码传给我一份……
我现在在两个群里面

实在不行的话,把整篇文章复制一下,使用无 dz 代码模式~
我zt好了再删掉

我懒,这么多图zt太过于恐怖……

2008-7-14 19:39 老冬腌菜
还有,这些编辑小学数学没学好?


显然都是正九边形

2008-7-14 19:57 refla
回复 #10 zglloo 的帖子

有AMD的790FX和Intel的X58,但它们都是新出的芯片,而且是面向专业用户的,估计在DIY市场上很难买到...[em21] ...

2008-7-14 20:03 refla
[quote]原帖由 [i]zglloo[/i] 于 2008-7-14 02:25 发表 [url=http://www.equn.com/forum/redirect.php?goto=findpost&pid=251668&ptid=18800][img]http://www.equn.com/forum/images/common/back.gif[/img][/url]
... 我在想如果可以的话在主板中 应该可以添加到16/32/ 数量应该是可行的 ... [/quote]

要让更多显卡并行工作,可能采用刀片式架构更合适。

2008-7-14 20:57 BiscuiT
回复 #14 refla 的帖子

790FX 出来好久了。。。价格也便宜。。(因为U弱。。只好降低身价
X58还未发售。。(因为Nehalem也没发售。。

2008-7-14 20:58 BiscuiT
回复 #12 老冬腌菜 的帖子

24块显卡并行工作能不能满足你的需要呢?2160块又怎么样?

今年4月份的时候,国外一位名叫Janne的牛人自己动手DIY了一台包含了6块Core 2 Quad CPU、8GB内存的微型计算机集群,在当时引起了不小的轰动(具体报道看[url=http://www.cnetnews.com.cn/2008/0602/898596.shtml]这里[/url]),甚至还引起了Google的关注。最近,Janne准备把这个想法继续发扬光大,他计划在原先的基础上进行一些修改,试图构建一台可以让24块显卡进行并行工作的超级渲染机器,而他的这个想法已经得到了AMD的支持,公司将会为他提供所有的必要硬件。更为疯狂的是,Janne的野心远远不止如此,他甚至已经准备好了一个可容纳2160块显卡的超级渲染集群的蓝图。



Janne将这个24显卡的渲染机器命名为“The Renderer”,计划中需要的硬件有:24块 Radeon HD4870X2 或Nvidia 9800GX2显卡、6块 MSI K9A2 V2 主板、6块 AMD Phenom quad 9850CPU、数十G的内存、6个1500-2000w的电源、大量的铜质散热管以及9平方米的铝板(其中3平方米用于散热)。让这些东西在软件上进行并行工作并不是什么问题,关键还在于硬件上的构成,下面是Janne的设想(最初的原型,最新的改进是缩短了散热管的长度):

首先将显卡和CPU的风扇全部去掉,用铜质散热管代替:
[img]http://photo1.bababian.com/upload9/20080706/1E3C8E10FD984A2B1B1365FCCA48EC77_500.jpg[/img]
机箱四面全部覆盖铝质散热器:
[img]http://photo1.bababian.com/upload9/20080706/0F15A0B1B20924D23CB0F0A123EBA393_500.jpg[/img]
显卡的GPU和主板上的CPU与散热管紧密接触:
[img]http://photo1.bababian.com/upload9/20080706/673125FA652D0B6CD0135C8882F4F13D_500.jpg[/img]
每一层按类似布局向上叠加,机箱四周全部加风扇辅助散热,由于数量很多,因此风扇的转速并不需要太高。
[img]http://photo1.bababian.com/upload9/20080706/610CB6E2E4966C872BC8DB441AB78989_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/F131263347CDB611985C39ED8753E8B9_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/94A97811ABEDD3F1A36444F229BA554C_500.jpg[/img]
最终版本:
[img]http://photo1.bababian.com/upload9/20080706/DA74FB9BDCB1A0440C85157EE1F5BBFF_500.jpg[/img]
预计这个渲染机器的运算速度会达到50T FLOPS。

  如果说这个想法还不能让你满意的话,那么Janne的名为“River”的由2160块显卡构成的超级集群能不能满足你呢?(为什么叫 River?因为这个系统真的建成的话,可能会需要一条河来提供散热。囧)预计这个系统的计算速度将达到惊人的4P FLOPS,[color=Red]比目前最快的超级计算机“Roadrunner”还快4倍[/color](有些夸张),我想这个设计蓝图该不会有公司来赞助了吧。Janne的想法如下:

  使用支持4显卡的主板,以3块主板为一组,将3组挂载了显卡的主板安装在一个正八面柱全铜箱体内,每块GPU和CPU都与铜质箱体侧面良好接触:
[img]http://photo1.bababian.com/upload9/20080706/B87B52485C8089AF5D3952F8D58B2B8A_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/3E8011B0954674163CF8C95C50B4ACD2_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/83EAAF501B9E69373B3B548CF7D83344_500.jpg[/img]
在箱体内向上叠加6层:
[img]http://photo1.bababian.com/upload9/20080706/BDDE01263E7616F6C0845BFC56A1E0B4_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/0CF705AE7CB5EF97BF70504FD7AE187D_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/E81F5F11A115E5D82EA0E4E233FD064D_500.jpg[/img]
将10个这样的箱子堆放在一起,铜质表面之间紧密接触,中间加入水冷管散热:
[img]http://photo1.bababian.com/upload9/20080706/AEF67695EA252ADFA1499089738A2ADB_500.jpg[/img]
[img]http://photo1.bababian.com/upload9/20080706/C33221138170C79E8AEC394E8F738289_500.jpg[/img]
此系统总共需要40000W的电源进行供电,如果可行的话,成本大概只要90万美元左右。不知道4P FLOPS的超级计算机是不是真的会来得如此容易。

  相比起来,24显卡系统还是要现实得多,要是Janne真的能够做出这个强大的渲染机器的话,之前报道过的[url=http://www.moonshinefly.com/2008/06/01/8gpu-super-computer/]8GPU FAST[/url]RA系统也不过是小巫见大巫而已。

2008-7-14 21:09 昂宿星团人
这是什么原理?代码全部失效...囧...

2008-7-14 21:15 BiscuiT
回复 #18 昂宿星团人 的帖子

[img]http://i.namipan.com/files/9ef17f2b52d3661f53fee6cd0107ee704d0fcd92657c000063db/0/Snap1.jpg[/img]

2008-7-15 21:02 refla
[b][size=3]万金油BiscuiT...[/size][/b]

2008-7-16 08:13 昂宿星团人
Reply #19 BiscuiT's post

有什么意义么...

2008-7-16 22:32 yxhchl
高手,主要是人家的动手能力。

2008-7-18 20:44 老冬腌菜
回复 #21 昂宿星团人 的帖子

呃……
我提出来的……
ZT 方便一点……

页: [1]


Powered by Discuz! Archiver 5.5.0  © 2001-2006 Comsenz Inc.