● 构架底层延展测试 在构架底层性能的延展测试环节,我们使用基于OpenCL的通用计算测试软件——GPCBenchmark来完成数据的收集。GPCBenchmark使用最为通用的函数库及API接口进行编写,并未对任何构架进行针对性的优化,测试基于构架的底层能力,且第一次以常规数学方法全面的考验了构架的灵活度和运算应对能力。通过该款软件,我们不仅可以直接读取许多底层构架信息,更能获得构架最真实的特性。 在测试总分环节,HD7970取得了令人惊讶的近6000分的测试结果,即便是相对于以灵活通用计算能力见长的GTX580,其领先幅度也达到了51%之多。 在读写测试环节,我们注意到HD7970的数据传输平滑度较之Cayman有了很大的进步,无论单纯的读写能力还是拷贝能力,HD7970均达到了较高的水平。 局域存储器测试环节考验的是构架局域存储器,也就是Shared以及cache的读写和操作能力。Tahiti构架由于引入了完整且十分灵活的unified cache体系,同时进一步改进了传统Shared的分布形式及操作方式,因此在局域存储器测试环节的结果较之Shared操作方式落后且不支持unified cache的Cayman要抢眼得多。局域存储器的性能直接关系着构架对缓冲的使用能力,而对缓冲的使用和操作能力又直接影响着构架运行Compute Shader以及其他要求灵活度的图形和运算操作的性能。 在这个环节的测试中,我们注意到Cayman的双精度测试存在问题,无法进行任何双精度相关的运算过程。由于使用相同驱动的Tahiti构架在双精度方面的表现良好,因此我们认为AMD目前还无法在Cayman构架中很顺利地实现非ALU.Trans进行的DP过程。与此同时,Tahiti构架的局域存储器吞吐存在较大的单双精度差异,因此我们认为AMD目前在维持3个构架同时正常工作方面遇到了较大的挑战,同时在未来的驱动挖掘方面仍旧也还存在很大的余地。 ● 延展测试下半场:为何DX11快了这么多 DirectX 11性能或者说Compute Shader性能,归根结底考验的是构架应对灵活自然的数学方法应用时的性能。GPCBenchmark的常规数学方法及图形处理过程测试,有助于我们了解构架在应对常规数学方法及图形处理相关数学操作时的表现,进而让我们对构架的Compute Shader性能提升有更加直观的感受。 原子操作能够将线程块凝固,并使其在执行完毕之前不可再分,因此高亮直方图的局域存储器原子操作是最接近发挥构架纯吞吐能力的常规应用。Tahiti构架先进的缓冲体系有助于将吞吐过程平顺化,同时可以大幅增加单元复用率,因此即便抛弃了有助于提升吞吐的VLIW,在该项测试以及后续的单精度浮点吞吐能力测试中HD7970依旧取得了高于HD6970的吞吐表现,这既证明了Tahiti构架的先进性,同时也正式宣判了VLIW最终的死刑 Compute Shader应用基本上都是围绕着常规的数学方法进行的,这些常规数学方法主要包括了矩阵操作、并行规约以及递归等操作。这类自然的常规数学方法大多并不十分强调构架的吞吐能力,但却对构架的灵活度,比如吞吐模式、缓冲操作形式以及线程管理能力有极高的要求。在这部分测试中,Tahiti构架从前端ACE、缓冲体系以及吞吐模式的改进上获得了极大的好处。其性能相对于上代的Cayman有了长足的进步,在于Fermi构架的比较中也取得了令人满意的结果。 通过GPCBenchmark的测试,我们可以得出这样的结论——Tahiti构架改进的缓冲体系,前端ACE以及吞吐模式大大加强了其应对常规数学方法应用的能力,同时并未令其丢失传统的吞吐优势。这种改进是正确的,同时也是极端有效的。在更加自然的非吞吐数学应用场合,Tahiti构架能够表现出相当强劲的灵活性和绝对性能,而强调吞吐的场合中Tahiti构架凭借出色的单元复用率一样可以获得令人满意的结果。这种全面表现,让HD7970在常规数学方法及通用计算负荷更重的DirectX 11领域拥有了长足的性能进步。
使用道具 举报
其实顾老师不是A黑,谁家技术好,他就支持谁。谁的技术对行业有正面推动作用,他就支持谁。 ... cicikml 发表于 2012-1-13 11:51
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )
GMT+8, 2025-5-24 15:19
Powered by Discuz! X3.5
© 2001-2024 Discuz! Team.