PCI-E带宽对GPU client分子折叠运算速度的影响

zxy0714 · 发表于 2008-9-13 15:13:39

在看stanford关于GPU2 cilent运算FAQ的时候注意到对PCI-E带宽有一个说明，就是8X（8lanes）PCI-E的速度不及16X（16lanes）。我现在的机子是DFI的X48T2R，主板上有3条PCI-E槽，其中两条是16x的，而且铁定是2.0版，这两条槽的带宽对运行在其上的两款GTX280来说，绝对不会对运行速度有影响。但是第三根槽，也就是离CPU最远的那根，只有4X，本帖研究4X PCI-E槽相对较小的带宽（如果也是2.0版的，则只有主PCI-E槽的1/4速度，如果不幸是1.0版的，则仅有1/8速度

）对GPU2 client运算速度是否有影响。

用FAHMON监测GTX280 在2.0版16X PCI-e与4X PCI-e下的PPD，发现：主1#/2#全速率全位宽的PCI-e 16X 2.0槽，在计算5506WU时候的PPD是7680。而第三根也就是你们经常说的脑残插槽，上面的GTX280运算速度是7540PPD

，用GPU id显示软件看，也确实只处于4x PCI-e连接下。由于平时GTX280在运算5013、5014至5016这几个project的WU时速度基本上在7500-7700之间晃悠，也就是说，通过使用同一款显卡在不同位宽PCI-E的插槽上PPD对比，结论可以是，PCI-E带宽对folding运算速度几乎没有影响。这就带来一个好消息，脑残PCI-E槽也能很好的发挥出高端显卡的运算能力。

这样我就不会担心我4#机微星K9A2 Platinum主板在4张插满9800GX2时会受到8X PCI-E2.0带宽的影响。

zxy0714 · 发表于 2008-9-13 15:34:44

还有另外一个问题，对于我的4#机，由于要同时运行7或者8个FAHCORE11进程（带动3张98GX2加一张88GT或者干脆上4张98GX2），而且默认都是全部分配到同一个core上，那到底每个进程平均下来较低的CPU占用资源会不会对运算有影响？（我设计是4#机最后用4核PHENON9750，4个核心分摊一下FAHCORE）。

经过使用两个98GX2核加一个88U运行5个FAHCORE客户端进行试验，当所有FAHCORE全部指定占用同一个核心时（CPU是E6750没超频），所有FAHCORE客户端获得的成绩均在5100PPD左右，当指定其中一个98GX2所在的FAHCORE线程单独占用另外一个空闲的CPU核心后，发现这个获得几乎50%CPU资源的FAHCORE成绩比起另外4个平均只有12%CPU资源的FAHCORE并没有可以视为不是误差的提升。也就是说，N卡的GPU2客户端对CPU资源的提供是十分不敏感的。这对于A卡运行FAHcore要100%占用至少一个核心来说，优势十分明显。

我有信心，4#即使仅使用一个超频的3.0G的AMD黑五双核CPU，也能带动4张98GX2的8个显示核心开8个FAHCORE。（用双核黑五比起四核PHeNON来说节省近千元，刚好把计划中的88G升级为98GX2）

jocover · 发表于 2008-9-13 18:32:53

可以用CUDA-Z测试一下带宽对CUDA的影响

http://www.brsbox.com/filebox/down/fc/9c69b613baae1440e52c8b950fb384a3

F@H_exorcist · 发表于 2008-9-13 18:35:42

我的妈呀，超级跑分农场来了

zxy0714 · 发表于 2008-9-13 19:14:00

原帖由 jocover 于 2008-9-13 18:32 发表
可以用CUDA-Z测试一下带宽对CUDA的影响

http://www.brsbox.com/filebox/do ... 440e52c8b950fb384a3

谢谢提供了个好工具，基本上验证了我的想法，host to device的速度在4X PCI-E槽上约为16X的20%。但是GPU Core 的处理能力一致，所以GPU的NV客户端如果在运算机理上不需要大量在host与device之间交换数据，那么PCI-E界面带宽影响十分小

caozhonghua · 发表于 2008-9-13 22:20:09

什么时候我能遇上这种问题……钱

sakurayi · 发表于 2008-9-14 08:36:56

那。。PCI-E 1.1 和2.0 之间区别也不会太大咯。。。。。。。。。。

zxy0714 · 发表于 2008-9-14 09:20:45

原帖由 sakurayi 于 2008-9-14 08:36 发表
那。。PCI-E 1.1 和2.0 之间区别也不会太大咯。。。。。。。。。。

理论上是这样，我想现在分子折叠运算机制大部分数据只需要在显示核心和显存中交换，运行结果出来后的小部分数据通过PCI-E总线返回系统内存。如果显卡显存容量足够，不需要借用系统内存，那么PCI-E 1.1版的也够了。

恰恰我的4#机，DFI X48T2R的第三根槽，如果不在BIOS里面选择4X速度的话，默认是1X速度的，其实在我发现这个选项并调到4X之前，GTX280运行在1X PCI-E的速度也是十分快的。

		自动登录	找回密码
密码			新注册用户

[原创] PCI-E带宽对GPU client分子折叠运算速度的影响

浏览过的版块