APB1 子项目 CUDA 版本开始测试！

cuihao · 发表于 2009-9-12 12:39:13

显然对我不利，我才不上当咧。

BiscuiT · 发表于 2009-9-12 12:58:10

为啥对你就不利？对我难道就有利了？

supertoby · 发表于 2009-9-12 14:20:39

一个烂排名有啥好争的

refla · 发表于 2009-9-12 15:01:19

啊呀，还是兄弟有见识

我不争、我不争

Youth · 发表于 2009-9-12 16:05:10

这个项目对结果正确性的要求相对其他大部分项目要更高一些
计算效率相对来说就是第二位优先级了

现在程序的效率可能还相对比较低，有很大一部分计算任务还放在cpu上，以后应该还会有不小的改进

项目方最终的目标是希望apb1子项目的计算能力能在现有基础上提高5-6倍，这样子就能及时将每天采集到的数据处理完，听说现在大概只能处理十几分钟的数据量。

refla · 发表于 2009-9-12 17:32:03

哦，天啊，那剩下的上千分钟的数据怎么办？

Youth · 发表于 2009-9-12 21:07:11

大概一天有两小时的数据吧，所以说要提高5-6倍的计算能力，优化也好，cuda也好，多发展些志愿者也好。。。

cicikml · 发表于 2009-9-12 21:52:42

原帖由 refla 于 2009-9-12 12:18 发表
A 卡对双精度的运算效率要比 N 的高。

这个问题还是有争议的。
你可能是看了PCI的HD 4850测试报告，陈寅初当时是这么说的：

以 RADEON HD 4850 的 625MHz 为例，因为可以每个周期能执行 160 条 MULADD 指令，双精度浮点性能则为 200,000 MFLOPS 或者 200 GFLOPS，这个性能是 NVIDIA GeForce GTX 280(77.76GFLOPS MAD) 的 2.57 倍。

但不要忘记这是AMD模拟全部双精度单元满负荷运算时测算出的理论值，RV770是靠ALU trans电路来执行双精度浮点数据的运算。

在有些情况下，RADEON HD 4850 的双精度性能会被看作是1/4或者 1/2，因为人们在编写通用程序的时候，可能很少使用到ALU.trans，这时候程序就会表现出1/4的单精度 MULMAD 指令吞吐率或者1/2的单精度ADD指令吞吐率。

再加上frontwave细化度不足带来的延迟以及LDS和GDS共享度严重不足带来的延迟……实际上RV770无论单双精度，真实可用运算能力都会有极大的缩水。而根据资料计算，GTX280峰值双精度64Bit浮点运算能力大概在90GFLOPS左右（实际输出能力，非理论值）。

A卡和N卡在双精度计算方面有很大不同，因为双精度计算部件设计非常复杂，所以A卡使用了ALU trans电路，ALU trans和LDS都是AMD要求引入的（R600时代就已经出现）；N卡也使用了特殊部件SFU，GTX200核心的每一个SM都包括了一个SFU（Special Function Unit，特殊功能单元）。GTX200芯片中的SFU单元已经不像G80时代的线程调度器，而是具备完整的线程发放能力，支持单周期一个乘加+一个连加运算。所以GT200的双精度运算性能衰减是单精度的1/8，并且衰减程度非常稳定（充足的周边资源所致）。

实际上无论是SFU还是ALU trans，在图形处理过程中都极少被用到。通用计算真的给显卡带来了很多改变……

refla · 发表于 2009-9-13 19:25:23

为什么一定要两个人算一个包呢，等发现可疑包时才校验，这样马上可以提升一倍算力。。。。。

refla · 发表于 2009-9-13 19:26:50

希望 OpenCL 和 DX11 能彻底扭转这种局面

cicikml · 发表于 2009-9-13 19:59:42

原帖由 refla 于 2009-9-13 19:26 发表
希望 OpenCL 和 DX11 能彻底扭转这种局面

同样希望AMD能尽快醒过来，因为除了游戏显卡还能做太多工作，AMD应该能够重回X1900时代的辉煌。
我把更多的希望寄托在AMD的GPU设计方面。

Youth · 发表于 2009-9-13 21:11:19

这样大概就方便作弊了。。。

BiscuiT · 发表于 2009-9-13 21:20:33

http://www.equn.com/wiki/%E5%BA% ... E.E7.BB.93.E6.9E.84

根据各个应用的特性使用了不同的结果验证技术。

The Human Proteome Folding 和 Nutritious Rice 应用不使用冗余验算。因为结果在统计分布上是预先确定的，无效结果会显示为离群值。为了检验结果副本，每个任务都包含一个微小的独特的计算，并可以在服务器进行检查。

Help Conquer Cancer，FightAIDS@Home 和 Discovering Dengue Drugs 应用则使用冗余计算。

项目计算程序的特性会确定了它的验证手段。。

refla · 发表于 2009-9-13 21:42:05

我一直很中意 A 卡的。可惜目前看来，5000系列的 A 卡不过是对原有架构的扩充罢了，并没有重新设计过架构。我觉得 AMD 似乎就想沿着这条路走，慢慢地把显卡变成一个超级协处理器。而 N 卡则进取多了，G300 据说是全新设计的架构，好期待哦。。。。

refla · 发表于 2009-9-13 21:46:37

\(^ε^) \

		自动登录	找回密码
密码			新注册用户

[分享] APB1 子项目 CUDA 版本开始测试！

回复 #30 BiscuiT 的帖子

回复 #31 cuihao 的帖子

回复 #33 supertoby 的帖子

回复 #35 Youth 的帖子

回复 #36 refla 的帖子

评分

回复 #37 Youth 的帖子

回复 #38 cicikml 的帖子

回复 #39 refla 的帖子

回复 #39 refla 的帖子

回复 #41 cicikml 的帖子

回复 #43 BiscuiT 的帖子

浏览过的版块