找回密码
 新注册用户
搜索
楼主: Youth

[分享] APB1 子项目 CUDA 版本开始测试!

[复制链接]
发表于 2009-9-12 12:39:13 | 显示全部楼层

回复 #30 BiscuiT 的帖子

显然对我不利,我才不上当咧。
回复

使用道具 举报

发表于 2009-9-12 12:58:10 | 显示全部楼层

回复 #31 cuihao 的帖子

为啥对你就不利?对我难道就有利了?
回复

使用道具 举报

发表于 2009-9-12 14:20:39 | 显示全部楼层
一个烂排名有啥好争的
回复

使用道具 举报

发表于 2009-9-12 15:01:19 | 显示全部楼层

回复 #33 supertoby 的帖子

啊呀,还是兄弟有见识

我不争、我不争
回复

使用道具 举报

 楼主| 发表于 2009-9-12 16:05:10 | 显示全部楼层
这个项目对结果正确性的要求相对其他大部分项目要更高一些
计算效率相对来说就是第二位优先级了

现在程序的效率可能还相对比较低,有很大一部分计算任务还放在cpu上,以后应该还会有不小的改进

项目方最终的目标是希望apb1子项目的计算能力能在现有基础上提高5-6倍,这样子就能及时将每天采集到的数据处理完,听说现在大概只能处理十几分钟的数据量。
回复

使用道具 举报

发表于 2009-9-12 17:32:03 | 显示全部楼层

回复 #35 Youth 的帖子

哦,天啊,那剩下的上千分钟的数据怎么办?
回复

使用道具 举报

 楼主| 发表于 2009-9-12 21:07:11 | 显示全部楼层

回复 #36 refla 的帖子

大概一天有两小时的数据吧,所以说要提高5-6倍的计算能力,优化也好,cuda也好,多发展些志愿者也好。。。
回复

使用道具 举报

发表于 2009-9-12 21:52:42 | 显示全部楼层
原帖由 refla 于 2009-9-12 12:18 发表
A 卡对双精度的运算效率要比 N 的高。


这个问题还是有争议的。
你可能是看了PCI的HD 4850测试报告,陈寅初当时是这么说的:

以 RADEON HD 4850 的 625MHz 为例,因为可以每个周期能执行 160 条 MULADD 指令,双精度浮点性能则为 200,000 MFLOPS 或者 200 GFLOPS,这个性能是 NVIDIA GeForce GTX 280(77.76GFLOPS MAD) 的 2.57 倍。

但不要忘记这是AMD模拟全部双精度单元满负荷运算时测算出的理论值,RV770是靠ALU trans电路来执行双精度浮点数据的运算。

在有些情况下,RADEON HD 4850 的双精度性能会被看作是1/4或者 1/2,因为人们在编写通用程序的时候,可能很少使用到ALU.trans,这时候程序就会表现出1/4的单精度 MULMAD 指令吞吐率或者1/2的单精度ADD指令吞吐率。

再加上frontwave细化度不足带来的延迟以及LDS和GDS共享度严重不足带来的延迟……实际上RV770无论单双精度,真实可用运算能力都会有极大的缩水。而根据资料计算,GTX280峰值双精度64Bit浮点运算能力大概在90GFLOPS左右(实际输出能力,非理论值)。

A卡和N卡在双精度计算方面有很大不同,因为双精度计算部件设计非常复杂,所以A卡使用了ALU trans电路,ALU trans和LDS都是AMD要求引入的(R600时代就已经出现);N卡也使用了特殊部件SFU,GTX200核心的每一个SM都包括了一个SFU(Special Function Unit,特殊功能单元)。GTX200芯片中的SFU单元已经不像G80时代的线程调度器,而是具备完整的线程发放能力,支持单周期一个乘加+一个连加运算。所以GT200的双精度运算性能衰减是单精度的1/8,并且衰减程度非常稳定(充足的周边资源所致)。

实际上无论是SFU还是ALU trans,在图形处理过程中都极少被用到。通用计算真的给显卡带来了很多改变……

评分

参与人数 1基本分 +5 收起 理由
refla + 5 精品文章

查看全部评分

回复

使用道具 举报

发表于 2009-9-13 19:25:23 | 显示全部楼层

回复 #37 Youth 的帖子

为什么一定要两个人算一个包呢,等发现可疑包时才校验,这样马上可以提升一倍算力。。。。。
回复

使用道具 举报

发表于 2009-9-13 19:26:50 | 显示全部楼层

回复 #38 cicikml 的帖子

希望 OpenCL 和 DX11 能彻底扭转这种局面
回复

使用道具 举报

发表于 2009-9-13 19:59:42 | 显示全部楼层
原帖由 refla 于 2009-9-13 19:26 发表
希望 OpenCL 和 DX11 能彻底扭转这种局面


同样希望AMD能尽快醒过来,因为除了游戏显卡还能做太多工作,AMD应该能够重回X1900时代的辉煌。
我把更多的希望寄托在AMD的GPU设计方面。
回复

使用道具 举报

 楼主| 发表于 2009-9-13 21:11:19 | 显示全部楼层

回复 #39 refla 的帖子

这样大概就方便作弊了。。。
回复

使用道具 举报

发表于 2009-9-13 21:20:33 | 显示全部楼层

回复 #39 refla 的帖子

http://www.equn.com/wiki/%E5%BA% ... E.E7.BB.93.E6.9E.84

根据各个应用的特性使用了不同的结果验证技术。

The Human Proteome Folding 和 Nutritious Rice 应用不使用冗余验算。因为结果在统计分布上是预先确定的,无效结果会显示为离群值。为了检验结果副本,每个任务都包含一个微小的独特的计算,并可以在服务器进行检查。

Help Conquer Cancer,FightAIDS@Home 和 Discovering Dengue Drugs 应用则使用冗余计算。



项目计算程序的特性会确定了它的验证手段。。
回复

使用道具 举报

发表于 2009-9-13 21:42:05 | 显示全部楼层

回复 #41 cicikml 的帖子

我一直很中意 A 卡的。可惜目前看来,5000系列的 A 卡不过是对原有架构的扩充罢了,并没有重新设计过架构。我觉得 AMD 似乎就想沿着这条路走,慢慢地把显卡变成一个超级协处理器。而 N 卡则进取多了,G300 据说是全新设计的架构,好期待哦。。。。
回复

使用道具 举报

发表于 2009-9-13 21:46:37 | 显示全部楼层

回复 #43 BiscuiT 的帖子

\(^ε^) \
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-3-29 05:19

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表