找回密码
 新注册用户
搜索
查看: 7619|回复: 16

[Pi Segment]64位优化测试V2.0

[复制链接]
发表于 2007-1-9 10:53:54 | 显示全部楼层 |阅读模式
需64位操作系统

解压后依次运行两个.exe文件
会生成两个.txt文件,贴在这里即可

运行时间约为1分钟,其间建议关闭其他使用CPU的程序以获得准确数据

谢谢!

64bittest_v2.rar

81.64 KB, 下载次数: 2393

回复

使用道具 举报

头像被屏蔽
发表于 2007-1-9 11:46:35 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
发表于 2007-1-9 11:47:31 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2007-1-9 20:33:03 | 显示全部楼层
Batch Test | Long Pipeline Version | V 2.0
CPU: Intel(R) Pentium(R) D CPU 2.80GHz
ID=9135 Cycle=46 Count=11
ID=9140 Cycle=46 Count=8
ID=1622 Cycle=46 Count=79
ID=5128 Cycle=46 Count=11
ID=972 Cycle=46 Count=9
ID=10949 Cycle=46 Count=16
ID=9066 Cycle=46 Count=2
ID=697 Cycle=46 Count=52
ID=7599 Cycle=46 Count=2
ID=9136 Cycle=46 Count=7

Batch Test | ShortPipeline Version | V 2.0
CPU: Intel(R) Pentium(R) D CPU 2.80GHz
ID=13897 Cycle=50 Count=59
ID=13568 Cycle=53 Count=42
ID=13898 Cycle=49 Count=55
ID=6184 Cycle=52 Count=22
ID=13925 Cycle=50 Count=6
ID=13596 Cycle=53 Count=9
ID=11312 Cycle=53 Count=2
ID=14068 Cycle=53 Count=3
回复

使用道具 举报

发表于 2007-1-10 05:01:52 | 显示全部楼层
Batch Test | Long Pipeline Version | V 2.0
CPU: Intel(R) Core(TM)2 CPU          6300  @ 1.86GHz
ID=4847 Cycle=37 Count=85
ID=726 Cycle=37 Count=7
ID=147 Cycle=37 Count=15
ID=91 Cycle=37 Count=81
ID=9672 Cycle=37 Count=2
ID=3226 Cycle=37 Count=5
ID=936 Cycle=37 Count=4
Batch Test | ShortPipeline Version | V 2.0
CPU: Intel(R) Core(TM)2 CPU          6300  @ 1.86GHz
ID=7235 Cycle=37 Count=2
ID=5076 Cycle=37 Count=2
ID=5149 Cycle=37 Count=10
ID=5137 Cycle=37 Count=5
ID=5119 Cycle=37 Count=2
ID=5150 Cycle=37 Count=39
ID=14096 Cycle=37 Count=14
ID=14114 Cycle=37 Count=2
ID=13742 Cycle=37 Count=5
ID=14063 Cycle=37 Count=2
ID=13686 Cycle=37 Count=5
ID=13631 Cycle=37 Count=2
ID=14109 Cycle=37 Count=4
ID=13358 Cycle=37 Count=6
ID=8977 Cycle=37 Count=3
ID=14032 Cycle=37 Count=3
ID=5155 Cycle=37 Count=2
ID=13792 Cycle=37 Count=2
ID=6303 Cycle=37 Count=5
ID=14033 Cycle=37 Count=3
ID=14057 Cycle=37 Count=2
ID=13969 Cycle=37 Count=5
ID=14099 Cycle=37 Count=2
ID=13981 Cycle=37 Count=2
ID=7534 Cycle=37 Count=2
ID=13254 Cycle=37 Count=2
回复

使用道具 举报

头像被屏蔽
发表于 2007-1-10 17:04:57 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2007-1-10 17:08:16 | 显示全部楼层
引用 xxeitx 在 2007-1-10 17:04 时的帖子:
怎么测试的人越来越少了


愿意加与的人本来就少了,再加上是 64 位的测试,当然更少。。。因为用 64 位软件平台的人不多。我这么多台机,也才 3 台是 64 位硬件,但清一色 32 位系统。所以没办法。。。
回复

使用道具 举报

 楼主| 发表于 2007-1-10 19:17:55 | 显示全部楼层
数据基本足够了

预期加速效果:
Netburst  19%
K8    38%
conroe    0%
回复

使用道具 举报

发表于 2007-1-10 19:23:14 | 显示全部楼层
0%...
回复

使用道具 举报

头像被屏蔽
发表于 2007-1-10 19:33:22 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2007-1-10 21:36:01 | 显示全部楼层
0%.....绝望了
PS:没64位平台。。。。。没法测试
回复

使用道具 举报

 楼主| 发表于 2007-1-10 23:18:51 | 显示全部楼层
看到这个结果我也挺失望的
本来希望conroe能提升很多的

这个测试包中包含了1万多种不同的算法,进行自动对比,输出最优的几种方案
conroe都是37个cycle,基本可以认定这就是它的极限了
回复

使用道具 举报

发表于 2007-1-11 00:09:49 | 显示全部楼层
引用 JUST 在 2007-1-10 23:18 时的帖子:

这个测试包中包含了1万多种不同的算法,进行自动对比,输出最优的几种方案
conroe都是37个cycle,基本可以认定这就是它的极限了


大哥,不会吧,里面真的有一万多种关于PI运算的算法?
能不能介绍一下,谢谢.(很想学)
回复

使用道具 举报

发表于 2007-1-11 08:32:52 | 显示全部楼层
引用 JUST 在 2007-1-10 23:18 时的帖子:
看到这个结果我也挺失望的
本来希望conroe能提升很多的

这个测试包中包含了1万多种不同的算法,进行自动对比,输出最优的几种方案
conroe都是37个cycle,基本可以认定这就是它的极限了


1W 多种并不代表所有吧。另外,你指的算法是计算的方法,还是同一种算法的1W多种不同优化方法?

CONROE 对性能提升效果最大的不是在于短管线或是大L2。因为用短管线可以在底频下将效能提升这是必然的。而它表现得比 K8 更强的地方只是在 Wide Dynmaic Execution 和 Micro-op FusioN 等技术。

以下引用网上找来的资料:

**********
Intel Core微架构的Wide Dynmaic Execution和Adcanced Dynamic Executive意念不同,它的出发点在于如何提高每周期指令处理数目,改善执行时间及提升处理器的能源效益,Core微架构拥有4组Decoder(3 Simple decoders + 1 Complex decoder),比上代Pentium Pro(P6)/PentiumII/PentiumIII/Pentium M架构拥有2 Simple decoders + 1 Complex decoder可多处理一组指令,与AMD K8不同的是它只拥有3组Complex ecoders,正常来说大部份x86指令均可以采用Simple Coder把它翻译成一个Micro-Op指令,只有极少数学运算的指令,需要采用Complex decoders来把它翻译为四个Micro-Ops指令
Wide Dynamaic Execution首次加入了Macro-Fusion技术。在旧世代的微架构中,每个指令被送来时其译码及执行动作是完全独立的,但Intel Core微架构可以让常见的指令组例如一个Compare指令配随后拥有一个Jump指令,便可把这个指令组合成单一的Micro-Op指令,这令Core微架构在特定情况下每个周期有运算五组指令,据Intel表示大部份x86程序,约每十至十五个指令就会出现一组可透过Macro -Fusion被组合,因此减少了程序执行所需运算时间
此外,Intel Core微架构保留了Banias微架构的Micro-op Fusion技术,在现代的x86处理器,x86指令(Macro-ops)会被分拆去为长短相同的Micro-Ops指令,才会被送往处理器的Pipeline等候执行,而Micro-op Fusion能把相同的Macro-ops混合成单一个Micro-ops,减少了Micro-ops运算的数目亦令处理器运作排序更有效率,据Intel表示,Micro-op Fision透过Out-of-order逻辑可以减高达10%的Micro-op指令执行数
**********
引用完毕。

如果真如 INTEL 上面的资料说的一样的话,前者每 10 到 15 条指令就有一条得到“免费执行”,后者 有 10% 的性能提升。那就算前者是每15条指令才“免费”一次,加起来也有 17% 左右了,而这 17% 的前提是已经通过改短管线,用新制程等提升效能之后的性能的再 17%,并不是 P4 的 17%,跟 P4 比起来,已经不只 17% 了。

我本人觉得扣肉虽然说白了是从 PIII 进化到 PM 后的再一次进化,但它已经与 PIII 完全不同了,它新技术相对太多,所以优化潜力也非常大。以前 P4 出来后 INTEL 有推出自己的编译优化软件来克服效能底,并最大化效能的,不知道针对扣肉的出了没有,如果出了的话,那我相 INTEL 的编译优化软件才能真正能生成对扣肉做最大优化的程序。
回复

使用道具 举报

发表于 2007-1-11 08:51:16 | 显示全部楼层
晕死,高手啊....................
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-4-24 16:19

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表