找回密码
 新注册用户
搜索
查看: 6166|回复: 8

[分享] GT300 来了!

[复制链接]
发表于 2009-10-1 12:32:24 | 显示全部楼层 |阅读模式
来自:http://news.mydrivers.com/1/145/145910.htm

GT300,或称G300,内部代号Fermi(费米),按照历史传统又称NV70,最高端型号GF100——不管叫什么,规格如下:

- 制造工艺:台积电40nm
- 晶体管:30亿个
- 流处理器:512个(32×16)
- 一级缓存:1MB
- 二级统一缓存:768KB
- 显存位宽:384-bit
- 显存容量:1.5/3/6GB GDDR5
- 浮点精度:半速IEEE754双精度

GT200拥有240个流处理器,而GT300一举增加到了512个,并分成16组SM(Streaming Multiprocessor),每组32个流处理器。

GT300集成了六个64-bit显存控制器,合计规格384-bit,低于GT200 512-bit,但搭配速度更快的GDDR5显存,容量上消费级桌面卡GeForce (380?)主要是1.5GB,专业卡Quadro和Tesla上则会配备惊人的3/6GB GDDR5。

GT300还改变了GPU功能执行方式,单精度模式下每个时钟循环均可执行512个积和熔加运算(Fused Multiply-Add/FMA),双精度下则是256个。

IEEE浮点算法格式方面,NVIDIA过去支持的是IEEE754-1985,现在GT300则升级到了最新的IEEE754-2008。虽然具体的浮点运算能力还不清楚,但非常有希望摆脱近年来始终不如对手的尴尬。

除此之外,GT300架构原生支持C(CUDA)、C++、DirectCompute、DirectX 11、Fortran、OpenCL、OpenGL 3.1/3.2等一系列技术标准,尤其是C++,这是GPU历史上第一次能够顺利运行这种代码,再加上C、Fortran就可以看出NVIDIA在通用计算方面的雄心壮志了。
回复

使用道具 举报

发表于 2009-10-1 12:33:39 | 显示全部楼层
回复

使用道具 举报

 楼主| 发表于 2009-10-1 15:22:30 | 显示全部楼层

回复 #2 cuihao 的帖子

那我就补充多一点信息吧

http://www.equn.com/forum/viewth ... &extra=page%3D1
回复

使用道具 举报

发表于 2009-10-1 15:47:34 | 显示全部楼层
卧槽.....支持c++.....
回复

使用道具 举报

发表于 2009-10-1 16:12:17 | 显示全部楼层

横向是NVIDIA、AMD历代图形核心(以及Intel Larrabee),纵向是晶体管数量,各个圆圈上标注的则是制造工艺——右上角最庞大、最惹眼的就是今天的主角,NVIDIA Fermi。

GT200的14亿个晶体管曾经让我们惊叹,Cypress的21.5亿个相比RV770的9.56亿个增加了一倍多,而Fermi达到了史无前例的30亿个,同样比自己的上一代翻了一番还多,比对手也多了40%。

从最高层面上说,Fermi很简单,无非是512个流处理器,384-bit GDDR5显存,而深层次的架构我们会在稍后逐一揭晓,不过Fermi至今还停留在纸面上,还不是一款真正的产品,所以型号划分、时钟频率、售价等等都还没有确定。事实上,直到两个月前NVIDIA才第一次让人看到了样品,最近不久刚刚获得可以正常工作的芯片,正式发布至少要到今年年底,而全面上市就是明年第一季度的事儿了。

Fermi为什么这么晚?NVIDIA产品营销副总裁Ujesh Desai说了一句:因为设计这么大的GPU实在是太TMD的难了


SP、SM

从高层次上看,Fermi和GT200结构形似,并无太大不同,但往身处看会发现绝大部分都已经进化。



最核心的流处理器(Streaming Processor/SP)现在不但数量大增,还有了个新名字CUDA核心(CUDA Core),由此即可看出NVIDIA的转型之意,不过我们暂时还是继续沿用流处理器的说法。

所有流处理器现在都符合IEEE 754-2008浮点算法(Cypress也是如此)和完整的32位整数算法,而后者在过去只是模拟的,事实上仅能计算24-bit整数乘法;同时引入的还有积和熔加运算(Fused Multiply-Add/FMA),每循环操作数单精度512个、单精度256个。所有一切都符合业界标准,计算结果不会产生意外偏差。

双精度浮点(FP64)性能大大提升,峰值执行率可以达到单精度浮点(FP32)的1/2,而过去只有1/8,AMD现在也不过1/5,比如Radeon HD 5870分别为单精度2.72TFlops、双精度544GFlops。由于最终核心频率未定,所以暂时还不清楚Fermi的具体浮点运算能力(双精度预计可达624GFlops)。

G80/GT200都是8个流处理器构成一组SM(Streaming Multiprocessor),Fermi增加到了32个,最多16组,少于GT200的30组,但流处理器总量从240个增至512个,是G80的整整四倍。

除了流处理器,每组SM还有4个特殊功能单元(Special Function UnitSFU),用于执行抽象数学和插值计算,G80/GT200均为2个。同时MUL已被删掉,所以不会再有单/双指令执行计算率了。

至于SM之上的纹理处理器群(Texture Processor Cluster/TPC),NVIDIA暂时没有披露具体组成方式,而且ROP单元、纹理/像素填充率等其它图形指标也未公布。



缓存

GT200的每组SM都有16KB共享内存,由其中8个SP使用。注意它们不是缓存(cache),而是软件管理的内存(memory),可以写入、读取数据。为了满足应用程序和通用计算的需要,Fermi引入了真正的缓存,每组SM拥有64KB可配置内存(合计1MB),可分成16KB共享内存加48KB一级缓存,或者48KB共享内存加16KB一级缓存,可灵活满足不同类型程序的需要。

GT200的每组TPC还有一个一级纹理缓存,不过当GPU出于计算模式的时候就没什么用了,故而Fermi并未在这方面进行增强。

整个芯片拥有一个容量768KB的共享二级缓存,执行原子内存操作(AMO)的时候比GT200快5-20倍。

并行内核(Parallel Kernel)
在GPU编程术语中,内核是运行在GPU硬件上的一个功能或小程序。G80/GT200整个芯片每次只能执行一个内核,容易造成SM单元闲置。这在图形运算中不是问题,通用计算上就不行了。

Fermi的全局分配逻辑则可以向整个系统发送多个并行内核,不然SP数量翻一番还多,更容易浪费。

应用程序在GPU和CUDA模式之间的切换时间也快得多了,NVIDIA宣称是GT200的10倍。外部连接亦有改进,Fermi现在支持和CPU之间的并行传输,而之前都是串行的。

统一64-bit内存寻址

以前的架构里多种不同载入指令,取决于内存类型:本地(每线程)、共享(每组线程)、全局(每内核)。这就和指针造成了麻烦,程序员不得不费劲清理。

Fermi统一了寻址空间,简化为一种指令,内存地址取决于存储位置:最低位是本地,然后是共享,剩下的是全局。这种统一寻址空间是支持C++的必需前提。

GT80/GT200的寻址空间都是32-bit的,最多搭配4GB GDDR3显存,而Fermi一举支持64-bit寻址,即使实际寻址只有40-bit,支持显存容量最多也可达惊人的1TB,目前实际配置最多6GB GDDR5——仍是Tesla。

7、新的指令集架构(ISA)

下边对开发人员来说是非常酷的:NVIDIA宣布了一个名为“Nexus”的插件,可以在Visual Studio里执行CUDA代码的硬件调试,相当于把GPU当成CPU看待,难度大大降低。

Fermi的指令集架构大大扩充,支持DX11和OpenCL义不容辞,C++前边也已经说过,现在又多了Visual Studio,当然还有C、Fortran、OpenGL 3.1/3.2。



[ 本帖最后由 zglloo 于 2009-10-1 16:17 编辑 ]
回复

使用道具 举报

发表于 2009-10-3 17:19:29 | 显示全部楼层
看不懂,到底现在买什么显卡跑分布式好呢?是不是还要视项目而定?
回复

使用道具 举报

发表于 2009-10-3 17:20:51 | 显示全部楼层

回复 #6 tcogh327 的帖子

从过去的项目来看 似乎每次对于A卡的计算优化更多些
回复

使用道具 举报

发表于 2009-10-3 21:11:38 | 显示全部楼层
原帖由 zglloo 于 2009-10-3 17:20 发表
从过去的项目来看 似乎每次对于A卡的计算优化更多些


同时对N卡的支持更广些。
回复

使用道具 举报

发表于 2009-10-15 17:51:07 | 显示全部楼层
A卡的5800系列和5700系列已经上市,N卡的GT300还只能画饼充饥。现在出了阉割版GT210和220,虽说是40nm的制程,但是流处理器最大才48个,还比不上9600GT,太让人失望了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-5-19 22:14

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表