|
发表于 2010-2-11 11:05:54
|
显示全部楼层
AMD的host to device\device to host\device to device memory copy速度均非常低,但GPU访问显存速度尚可,特别是基本没有受到合并访问条件影响。
AMD R7XX(HD4XXX)系列的GPU中本身没有OCL Local Memroy硬件。LDS根本不足以胜任OCL Local memory,所以肯定是用OCL Global Memory模拟的。速度慢不足为奇。58xx对Global memory的原子操作性能改进可能是托了DX11 Direct Compute的福。
另一方面,既然是OPEN,肯定对大家都是公平的开放的。虽然5870在OPEN底层测试中比4870强了很多,但这样的测试都是理论的。
最后的运算效率,又回到了SIMD+VLIW VS Gigathread+标量化执行单元 不改架构根本没办法改变现状。 |
|