引用 JUST 在 2007-1-10 23:18 时的帖子:
看到这个结果我也挺失望的
本来希望conroe能提升很多的
这个测试包中包含了1万多种不同的算法,进行自动对比,输出最优的几种方案
conroe都是37个cycle,基本可以认定这就是它的极限了
1W 多种并不代表所有吧。另外,你指的算法是计算的方法,还是同一种算法的1W多种不同优化方法?
CONROE 对性能提升效果最大的不是在于短管线或是大L2。因为用短管线可以在底频下将效能提升这是必然的。而它表现得比 K8 更强的地方只是在 Wide Dynmaic Execution 和 Micro-op FusioN 等技术。
以下引用网上找来的资料:
**********
Intel Core微架构的Wide Dynmaic Execution和Adcanced Dynamic Executive意念不同,它的出发点在于如何提高每周期指令处理数目,改善执行时间及提升处理器的能源效益,Core微架构拥有4组Decoder(3 Simple decoders + 1 Complex decoder),比上代Pentium Pro(P6)/PentiumII/PentiumIII/Pentium M架构拥有2 Simple decoders + 1 Complex decoder可多处理一组指令,与AMD K8不同的是它只拥有3组Complex ecoders,正常来说大部份x86指令均可以采用Simple Coder把它翻译成一个Micro-Op指令,只有极少数学运算的指令,需要采用Complex decoders来把它翻译为四个Micro-Ops指令
Wide Dynamaic Execution首次加入了Macro-Fusion技术。在旧世代的微架构中,每个指令被送来时其译码及执行动作是完全独立的,但Intel Core微架构可以让常见的指令组例如一个Compare指令配随后拥有一个Jump指令,便可把这个指令组合成单一的Micro-Op指令,这令Core微架构在特定情况下每个周期有运算五组指令,据Intel表示大部份x86程序,约每十至十五个指令就会出现一组可透过Macro -Fusion被组合,因此减少了程序执行所需运算时间
此外,Intel Core微架构保留了Banias微架构的Micro-op Fusion技术,在现代的x86处理器,x86指令(Macro-ops)会被分拆去为长短相同的Micro-Ops指令,才会被送往处理器的Pipeline等候执行,而Micro-op Fusion能把相同的Macro-ops混合成单一个Micro-ops,减少了Micro-ops运算的数目亦令处理器运作排序更有效率,据Intel表示,Micro-op Fision透过Out-of-order逻辑可以减高达10%的Micro-op指令执行数
**********
引用完毕。
如果真如 INTEL 上面的资料说的一样的话,前者每 10 到 15 条指令就有一条得到“免费执行”,后者 有 10% 的性能提升。那就算前者是每15条指令才“免费”一次,加起来也有 17% 左右了,而这 17% 的前提是已经通过改短管线,用新制程等提升效能之后的性能的再 17%,并不是 P4 的 17%,跟 P4 比起来,已经不只 17% 了。
我本人觉得扣肉虽然说白了是从 PIII 进化到 PM 后的再一次进化,但它已经与 PIII 完全不同了,它新技术相对太多,所以优化潜力也非常大。以前 P4 出来后 INTEL 有推出自己的编译优化软件来克服效能底,并最大化效能的,不知道针对扣肉的出了没有,如果出了的话,那我相 INTEL 的编译优化软件才能真正能生成对扣肉做最大优化的程序。