GF100 NDA解禁，白皮书公布

来不及思考 发表于 2010-1-18 15:53:41

http://www.hardocp.com/article/2010/01/17/nvidias_fermi_gf100_facts_opinions

这次，是代差啊

“不要慌！我们还有R1000！”

金鹏发表于 2010-1-18 16:49:57

GF100架构白皮书解析

NVIDIA GF100白皮书的NDA于今日解禁，笔者在第一时间对此PPT做简要解析。

http://images.enet.com.cn/2010/0118/56/r_8002499.jpg

GF100与之前的产品相比，主要变化是：

几何细节质量的提升
更好的图像质量
革命化的游戏用GPU计算
前所未有的最强大的GPU性能

http://www.enet.com.cn/videocard/img/2010/0118/56/8002499.jpg

开始之前先看看GF100的规格：512CUDA单元 16几何处理器 4个光栅处理单元 64纹理处理单元 48个ROP 384位GDDR5显存

http://images.enet.com.cn/2010/0118/50/r_7969413.jpg

由于GPU能力的限制，当前游戏即使是主角仍然显得很粗糙，虽然像素渲染已经全部shader化，但几个细节却很差。

http://images.enet.com.cn/2010/0118/64/r_7971381.jpg

而电影级别的CG角色细节则丰富得多，细分曲面和位移映射则应用十分普遍.

http://images.enet.com.cn/2010/0118/55/r_7972802.jpg

GF100之前，几何细节性能进步很小：从FX5800到GT200 shader性能提升超过了150倍，而几何性能仅提升三倍不到。DX9/DX10这些API的进化不能解决这个问题，但GF100全新的几何处理架构却给DX11带来了8倍的性能提升。

http://images.enet.com.cn/2010/0118/27/r_7977336.jpg

而Tessellation细分曲面技术可以将简单的模型赋予更复杂的细节，动态LOD运行模型细节在性能和质量之间依据需求进行调整。

http://images.enet.com.cn/2010/0118/81/r_7978272.jpg

细分曲面和位移映射技术可以提供更丰富的几何细节.

http://images.enet.com.cn/2010/0118/81/r_7978783.jpg

如火箭雪橇里的地形细节就是引用这样的技术。

http://images.enet.com.cn/2010/0118/35/r_7979664.jpg

细分曲面技术还可以运用到水面、毛发这样的物体体现中。

http://images.enet.com.cn/2010/0118/88/r_7982340.jpg

开启和关闭细分曲面的画面对比

http://images.enet.com.cn/2010/0118/40/r_7980755.jpg

如果仅仅是简单的在GT200架构上上增加细分曲面技术则会有明显的瓶颈。

http://images.enet.com.cn/2010/0118/58/r_7984114.jpg

GF100的细分曲面性能大概有5870的2-6倍

http://images.enet.com.cn/2010/0118/91/r_7986704.jpg

GF100 Unigine DX11 Benchmark的DX11性能也在5870的1.5倍以上。

http://images.enet.com.cn/2010/0118/93/r_7987194.jpg

GF100的DX11 SDK的GS性能更在5870的四倍以上。

http://images.enet.com.cn/2010/0118/55/r_7988538.jpg

http://images.enet.com.cn/2010/0118/61/r_7988738.jpg

GF100的规格：512CUDA单元 16几何处理器 4个光栅处理单元 64纹理处理单元 48个ROP 384位GDDR5显存

http://images.enet.com.cn/2010/0118/41/r_7992008.jpg

GF100 Shader Model
每组有32个CUDA核心为GT200四倍
48/16KB共享缓存为GT200三倍
16/48KB L1缓存 GT200没有
支持32位整数操作 IEEE754 2008 FMA浮点数操作
4个纹理单元
一个Polymorph引擎

http://images.enet.com.cn/2010/0118/72/r_7994563.jpg

基于处理单元和显存之间的缓存架构的加强值得处理数据仅仅停留在核心，而不用访问缓存，L1缓存可以用于处理寄存器溢出、堆栈操作和进行全局的LD/ST操作。而L2缓存可以用于储存顶点、SM、纹理和ROP数据。

http://images.enet.com.cn/2010/0118/56/r_7996049.jpg

缓存架构可以带来更大的性能提升，独立的L1 LD/ST缓存可以提升物理处理和光线追踪的处理效能。而16/48KB共享缓存可以使得重用数据处理更有效率。之前的GT200 256KB L2缓存仅能用于纹理只读处理，而GF100的768KB缓存任何客户程序都可以读写操作，这样可以大幅提升纹理处理性能和通用计算性能。

http://images.enet.com.cn/2010/0118/29/r_8004422.jpg

改进的ROP和纹理架构可以提供更好的AA性能.同时消除木桶效应中纹理和ROP部分的短板。

http://images.enet.com.cn/2010/0118/20/r_8007298.jpg

http://images.enet.com.cn/2010/0118/60/r_8008485.jpg

http://images.enet.com.cn/2010/0118/08/r_8009329.jpg

加速的误差取样可以消除色阶过度之间的杂点，使得画质提升。

http://images.enet.com.cn/2010/0118/11/r_8009978.jpg

GF100还可以提供全新的32x CSAA。

http://images.enet.com.cn/2010/0118/29/r_8011283.jpg

32x CSAA提供全新的8+24 CSAA模式：其为8x的色彩取样和24x的覆盖取样。其可以提供更加的透明处理质量，总计有33级别的透明级别，而GT200并不支持覆盖取样。

http://images.enet.com.cn/2010/0118/24/r_8013684.jpg

http://images.enet.com.cn/2010/0118/89/r_8014329.jpg

GF100 32x CSAA可以提供比GT200 16x CSAA更好的抗锯齿质量。

http://images.enet.com.cn/2010/0118/35/r_8014646.jpg

TMAA=透明多种取样抗锯齿透明MSAA

http://images.enet.com.cn/2010/0118/09/r_8015328.jpg
http://images.enet.com.cn/2010/0118/19/r_8015594.jpg

GF100的可以提供更好的透明AA处理品质。

http://images.enet.com.cn/2010/0118/98/r_8016705.jpg

并且性能损失更小，GF100的32x CSAA相比8x CSAA性能损失仅7%。

http://images.enet.com.cn/2010/0118/41/r_8025951.jpg

更大的更优化的缓存结构、并行核心程序执行、快速的应用环境切换可以给更多的用户使用GPU来完成更多的工作，如直接使用C++或者Visual Studio集成环境。

http://images.enet.com.cn/2010/0118/31/r_8026546.jpg

使用CUDA并行计算架构可以使用CUDA C++、CUDA C、OpenCL、DirectCompute等接口。

http://images.enet.com.cn/2010/0118/32/r_8030279.jpg

同时NVIDIA的PhysX物理加速和OptiX光线追踪也是基于CUDA技术。

http://images.enet.com.cn/2010/0118/00/r_8034690.jpg

CUDA可以用于直方图、变换、景深处理和运动模糊处理等图像处理。还可以进行物理、动画和人工智能计算处理。此外可以用户OIT 半透明物理前后关系判断处理、阴影贴图抗锯齿处理、光线追踪等。

http://images.enet.com.cn/2010/0118/45/r_8035313.jpg

《地下铁2033》是将今年推出的一款FPS游戏，其的景深效果计算就采用DirectCompute。采用以往传统的后处理方式效果并不能让人满意，而采用皮克斯的技术则系统资源消耗则会太大，而采用CUDA则能很好的协调技术研发者和开发者之间的工作。

http://www.enet.com.cn/videocard/img/2010/0118/38/8043523.jpg

Capcom本月将要发售的Dark Void就利用了NVIDIA APEX Turbulence模块技术，用来表现机械和武器的开火和粒子效果。

http://images.enet.com.cn/2010/0118/52/r_8045035.jpg

CUDA还可以用于游戏的AI寻路计算，可以高效的计算最短路径，并可以做冲突预测,GF100在寻路方面以提供三倍于GT200的性能。

http://images.enet.com.cn/2010/0118/79/r_8047196.jpg

流体模拟是基于粒子层次，模拟超过128000的粒子互动，甚至包括液体表面张力计算，GF100可以提供两倍于GT200的性能，这样的技术可以广泛应用于游戏的水流、泥浆和血液等流体的物理特性模拟。PhysX 3.0得益于并行核心程序执行，相比之前性能可以有20-40%的提升，而在实际游戏应用中性能提升会更为明显。(笔者在先前《看上去很美 PhysX真的有用么》对这一点做了成功预测)

http://images.enet.com.cn/2010/0118/45/r_8054172.jpg

GF100的光线追踪采用光栅化和光线追踪组合的方式，主要光源依然采用光栅化，而阴影和反射采用光线追踪的方式，GF100得益于新的缓存架构可以提供四倍于GT200的性能。

http://images.enet.com.cn/2010/0118/82/r_8056800.jpg

GF100在游戏计算方面都可以提供GT200两倍以上的性能。

最后让我们对GF100架构进行回顾，GF100的Geforce之魂为

8倍于GT200的几何处理性能
更好的图像质量(32x CSAA和三倍于GT200的Shadow Map性能)
完整的GPU游戏计算解决方案(4倍的PhysX性能、AI和光线追踪)
前所未有的GPU性能(8x AA下两倍于GT200的性能)

http://www.enet.com.cn/article/2010/0118/A20100118601094.shtml

[ 本帖最后由金鹏于 2010-1-19 19:56 编辑 ]

来不及思考 发表于 2010-1-18 16:52:12

小云这贱人，竟然如此之快

eqzero 发表于 2010-1-18 17:02:26

可惜原来说月底可以搞到ES版的商家告知要年后了......

MythCreator 发表于 2010-1-18 20:19:07

GF100 32x CSAA可以提供比GT200 16x CSAA更好的抗锯齿质量。

这个..

从整体改进来看,比5000系晚出接近半年时间带来的性能提升差不多也就是这个水平了,同时更方便普通的开发者利用显卡资源

期待A系新架构显卡的加速研发

顺便期待AMD这边APU的诞生,比N卡强大得多的整数性能和精度+把I卡轰的体无完肤的浮点处理能力和图形性能,这才是A翻身的最大机会呀

eqzero 发表于 2010-1-18 21:04:14

回复 #5 MythCreator 的帖子

芯片级别研发立项到成果绝不是半年可以完成的，往往是延误倒是有可能半年，业内一般流片失败间隔都要超过三个月，流片一次要几百万，不完全找到问题，强行再来除了浪费钱，其实根本就是浪费时间。
显卡这种产品就算芯片完成，后续工作也不轻松......

MythCreator 发表于 2010-1-19 11:11:33

回复 #6 eqzero 的帖子

指对一般消费者的心态而言，晚出这么久如果性能没有和时间相同的提升的话那还不如等A的下一代

大家来竞猜下，Fermi出了以后A会上32nm制程还是28nm制程默认频率估计能至少达到1000MHz了吧

fear.of.red 发表于 2010-1-19 14:02:55

回复 #7 MythCreator 的帖子

台积电已取消32nm工艺，准备直接上28nm。应该不会有32nm制程的显卡了

eqzero 发表于 2010-1-19 15:22:08

回复 #7 MythCreator 的帖子

估计上不了1000MHz吧？虽然制程提升了，可是晶体管数量也上来了，热功耗也大很多......

eqzero 发表于 2010-1-19 15:24:44

显卡和cpu的研发复杂度差不多，都是3~4年时间研发后上市,intel利用tick-tock的模式其实比较聪明，1年多时间研发核心，后面1年多靠制程再提升。但他依靠的是自身集成整条线的优势，而显卡界，nv、ati（amd并没有把cpu的资源给收购来的ati）都是fabless，之前因为显卡复杂度不高，创造过18个月一代的神话，随着芯片越来越复杂，光是模拟器都造价吓人，估计也要30个月以上了。

http://www.pcpop.com/doc/0/448/448223_2.shtml

[ 本帖最后由 eqzero 于 2010-1-19 15:33 编辑 ]

MythCreator 发表于 2010-1-19 20:04:34

回复 #9 eqzero 的帖子

以A的风格来看,基本会用譬如5790,5890这样的型号来试新制程

cicikml 发表于 2010-1-19 20:34:32

AMD这边，APU的第一步是把GPU中的Shader Unit单独提出来放到CPU当中作为Coprocessor来用，从而替代SSE和MMX的位置。
未来还会有更深层次的融合，期待。

金鹏发表于 2010-1-19 22:02:18

回复 #12 cicikml 的帖子

期待AMD早点出下代显卡，有竞争才能有我们的性价比显卡

页: [1]

中国分布式计算论坛's Archiver