GT300 来了！

refla · 发表于 2009-10-1 12:32:24

来自：http://news.mydrivers.com/1/145/145910.htm

GT300，或称G300，内部代号Fermi(费米)，按照历史传统又称NV70，最高端型号GF100——不管叫什么，规格如下：

－制造工艺：台积电40nm
－晶体管：30亿个
－流处理器：512个(32×16)
－一级缓存：1MB
－二级统一缓存：768KB
－显存位宽：384-bit
－显存容量：1.5/3/6GB GDDR5
－浮点精度：半速IEEE754双精度

GT200拥有240个流处理器，而GT300一举增加到了512个，并分成16组SM(Streaming Multiprocessor)，每组32个流处理器。

GT300集成了六个64-bit显存控制器，合计规格384-bit，低于GT200 512-bit，但搭配速度更快的GDDR5显存，容量上消费级桌面卡GeForce (380?)主要是1.5GB，专业卡Quadro和Tesla上则会配备惊人的3/6GB GDDR5。

GT300还改变了GPU功能执行方式，单精度模式下每个时钟循环均可执行512个积和熔加运算(Fused Multiply-Add/FMA)，双精度下则是256个。

IEEE浮点算法格式方面，NVIDIA过去支持的是IEEE754-1985，现在GT300则升级到了最新的IEEE754-2008。虽然具体的浮点运算能力还不清楚，但非常有希望摆脱近年来始终不如对手的尴尬。

除此之外，GT300架构原生支持C(CUDA)、C++、DirectCompute、DirectX 11、Fortran、OpenCL、OpenGL 3.1/3.2等一系列技术标准，尤其是C++，这是GPU历史上第一次能够顺利运行这种代码，再加上C、Fortran就可以看出NVIDIA在通用计算方面的雄心壮志了。

cuihao · 发表于 2009-10-1 12:33:39

http://www.equn.com/forum/thread-23383-1-1.html
有了啊

。

refla · 发表于 2009-10-1 15:22:30

那我就补充多一点信息吧

http://www.equn.com/forum/viewth ... &extra=page%3D1

lfk · 发表于 2009-10-1 15:47:34

卧槽.....支持c++.....

zglloo · 发表于 2009-10-1 16:12:17

横向是NVIDIA、AMD历代图形核心(以及Intel Larrabee)，纵向是晶体管数量，各个圆圈上标注的则是制造工艺——右上角最庞大、最惹眼的就是今天的主角，NVIDIA Fermi。

GT200的14亿个晶体管曾经让我们惊叹，Cypress的21.5亿个相比RV770的9.56亿个增加了一倍多，而Fermi达到了史无前例的30亿个，同样比自己的上一代翻了一番还多，比对手也多了40％。

从最高层面上说，Fermi很简单，无非是512个流处理器，384-bit GDDR5显存，而深层次的架构我们会在稍后逐一揭晓，不过Fermi至今还停留在纸面上，还不是一款真正的产品，所以型号划分、时钟频率、售价等等都还没有确定。事实上，直到两个月前NVIDIA才第一次让人看到了样品，最近不久刚刚获得可以正常工作的芯片，正式发布至少要到今年年底，而全面上市就是明年第一季度的事儿了。

Fermi为什么这么晚？NVIDIA产品营销副总裁Ujesh Desai说了一句：因为设计这么大的GPU实在是太TMD的难了。

SP、SM

从高层次上看，Fermi和GT200结构形似，并无太大不同，但往身处看会发现绝大部分都已经进化。

最核心的流处理器(Streaming Processor/SP)现在不但数量大增，还有了个新名字CUDA核心(CUDA Core)，由此即可看出NVIDIA的转型之意，不过我们暂时还是继续沿用流处理器的说法。

所有流处理器现在都符合IEEE 754-2008浮点算法(Cypress也是如此)和完整的32位整数算法，而后者在过去只是模拟的，事实上仅能计算24-bit整数乘法；同时引入的还有积和熔加运算(Fused Multiply-Add/FMA)，每循环操作数单精度512个、单精度256个。所有一切都符合业界标准，计算结果不会产生意外偏差。

双精度浮点(FP64)性能大大提升，峰值执行率可以达到单精度浮点(FP32)的1/2，而过去只有1/8，AMD现在也不过1/5，比如Radeon HD 5870分别为单精度2.72TFlops、双精度544GFlops。由于最终核心频率未定，所以暂时还不清楚Fermi的具体浮点运算能力(双精度预计可达624GFlops)。

G80/GT200都是8个流处理器构成一组SM(Streaming Multiprocessor)，Fermi增加到了32个，最多16组，少于GT200的30组，但流处理器总量从240个增至512个，是G80的整整四倍。

除了流处理器，每组SM还有4个特殊功能单元(Special Function UnitSFU)，用于执行抽象数学和插值计算，G80/GT200均为2个。同时MUL已被删掉，所以不会再有单/双指令执行计算率了。

至于SM之上的纹理处理器群(Texture Processor Cluster/TPC)，NVIDIA暂时没有披露具体组成方式，而且ROP单元、纹理/像素填充率等其它图形指标也未公布。

缓存

GT200的每组SM都有16KB共享内存，由其中8个SP使用。注意它们不是缓存(cache)，而是软件管理的内存(memory)，可以写入、读取数据。为了满足应用程序和通用计算的需要，Fermi引入了真正的缓存，每组SM拥有64KB可配置内存(合计1MB)，可分成16KB共享内存加48KB一级缓存，或者48KB共享内存加16KB一级缓存，可灵活满足不同类型程序的需要。

GT200的每组TPC还有一个一级纹理缓存，不过当GPU出于计算模式的时候就没什么用了，故而Fermi并未在这方面进行增强。

整个芯片拥有一个容量768KB的共享二级缓存，执行原子内存操作(AMO)的时候比GT200快5-20倍。

并行内核(Parallel Kernel)
在GPU编程术语中，内核是运行在GPU硬件上的一个功能或小程序。G80/GT200整个芯片每次只能执行一个内核，容易造成SM单元闲置。这在图形运算中不是问题，通用计算上就不行了。

Fermi的全局分配逻辑则可以向整个系统发送多个并行内核，不然SP数量翻一番还多，更容易浪费。

应用程序在GPU和CUDA模式之间的切换时间也快得多了，NVIDIA宣称是GT200的10倍。外部连接亦有改进，Fermi现在支持和CPU之间的并行传输，而之前都是串行的。

统一64-bit内存寻址

以前的架构里多种不同载入指令，取决于内存类型：本地(每线程)、共享(每组线程)、全局(每内核)。这就和指针造成了麻烦，程序员不得不费劲清理。

Fermi统一了寻址空间，简化为一种指令，内存地址取决于存储位置：最低位是本地，然后是共享，剩下的是全局。这种统一寻址空间是支持C++的必需前提。

GT80/GT200的寻址空间都是32-bit的，最多搭配4GB GDDR3显存，而Fermi一举支持64-bit寻址，即使实际寻址只有40-bit，支持显存容量最多也可达惊人的1TB，目前实际配置最多6GB GDDR5——仍是Tesla。

7、新的指令集架构(ISA)

下边对开发人员来说是非常酷的：NVIDIA宣布了一个名为“Nexus”的插件，可以在Visual Studio里执行CUDA代码的硬件调试，相当于把GPU当成CPU看待，难度大大降低。

Fermi的指令集架构大大扩充，支持DX11和OpenCL义不容辞，C++前边也已经说过，现在又多了Visual Studio，当然还有C、Fortran、OpenGL 3.1/3.2。

[ 本帖最后由 zglloo 于 2009-10-1 16:17 编辑 ]

tcogh327 · 发表于 2009-10-3 17:19:29

看不懂，到底现在买什么显卡跑分布式好呢？是不是还要视项目而定？

zglloo · 发表于 2009-10-3 17:20:51

从过去的项目来看似乎每次对于A卡的计算优化更多些

cicikml · 发表于 2009-10-3 21:11:38

原帖由 zglloo 于 2009-10-3 17:20 发表
从过去的项目来看似乎每次对于A卡的计算优化更多些

同时对N卡的支持更广些。

kittyjia · 发表于 2009-10-15 17:51:07

A卡的5800系列和5700系列已经上市，N卡的GT300还只能画饼充饥。现在出了阉割版GT210和220，虽说是40nm的制程，但是流处理器最大才48个，还比不上9600GT，太让人失望了。

		自动登录	找回密码
密码			新注册用户

[分享] GT300 来了！

回复 #2 cuihao 的帖子

回复 #6 tcogh327 的帖子

浏览过的版块