找回密码
 新注册用户
搜索
查看: 21885|回复: 26

高端台机/中低端双路及以上机器跑BIGADV包提升PPD技巧汇总

[复制链接]
发表于 2012-7-27 20:21:05 | 显示全部楼层 |阅读模式
本帖最后由 金鹏 于 2013-12-16 14:29 编辑

引言--
bigadv move to 16+ cores as previously announced
by kasson » Mon Jul 30, 2012 6:03 pm

We announced at the beginning of the year that the bigadv program would be moving to clients with 16+ cores. At this point, we are only serving 16+ BA work units. We do continue to evaluate the program and may make changes (in either direction) in the future as both the scientific work we are doing and the capabilities of donor machines continue to change.

Thanks for folding!

由于斯坦福宣布BIGADV全面升级到BA16时代
BA包目前分为余量不多的BA8包:6901 和 BA12包:6903、6904,此两类包需要具有12T/12C的机器才能接到 ,过几天也许就木有了
主力BA16包:8101/8102 /8103/8104/8105需要具有16T/16C及以上的机器才能接到。
(随着690X包彻底下线,目前BA16主力包8102、8103、8104、8105包都能被4.1G+的12T处理器机器(包括主频低于2.9G的双路24T的Nehalem架构机器)按时跑完即使是8101包也能被超频到4.5G的SNB-E 12T处理器跑完,注:如果你的U跑CINEBENCH -R11.5能有11分+或者CINEBENCH _R15能有1000+分就能跑完8102-8105包)
而运行此类BA包又以原生LINUX或者虚拟机下的LINUX系统下计算效率最高,获得的得分最高,所以本文主要围绕如何接到BA16展开(跑BA包的缺点就是需要机器7*24不停机计算)。

      随着3213的日益强大,拥有林林总总各类机器,有些是12T/12c的高端台机跑着SMP2,有些是16T/16/C/24T的低主频双路机(比如主频低于2.9G的双路24T的Nehalem架构机器)因为不能按时完成8101也跑着SMP2或者V7,造成了算力和应得PPD不成比例的囧惑,
如果你的机器主频超的足够高(比如超频到4.5G的SNB-E台机)可以尝试下面方法获取BA16包,但是前提必须要在规定奖励期限内完成并上传后才有奖励分,如果不能完成还是老老实实跑V6&V7下的SMP2包
下面根据各位高手总结的经验汇总了一些提升PPD的技巧与有需要的兄弟分享:

一、神医涡轮增压大法:适用于超频后的12T/12C台机模拟16T后能够接到BA16包

     适合原生LINUX_1.3.4镜像和WIN系统下虚拟机VirtualBox_1.4.1镜像模拟16T(对于其他LINUX系统下安装FAH客户端的下的,可按照此思路,自己摸索模拟16T)
拷贝    stat.16.txt (9.17 KB, 下载次数: 7915) 文件到FAH共享目录下,在LINUX运行界面或者虚拟机运行界面内~#提示符后输入
  1. cp /usr/local/fah/stat.16.txt /tmp/stat.save
复制代码
后回车,修改系统配置文件,使得无需每次重启都要手动加载伪装文件:
在~#提示符的后面输入下面的命令后回车:
  1. vi /etc/rc.d/rc.fah
复制代码
使用箭头键,将光标移到“Starting FAH Client......”下面的“cd $FPATH”的最后面,
然后按A键,再敲回车,增加一条空行~~~
在这条空行中输入下面的内容(此处为两行,非一行):
  1. mount --bind /tmp/stat.save /proc/stat
  2. sleep 15
复制代码
上面命令在一些情况下会失败,比如当你使用Ramdisk或live版Linux的时候。
此时可以改用:
  1. mount --bind -o loop /tmp/stat.save /proc/stat
  2. sleep 15
复制代码
输入完毕,键盘盲打:ESC键、冒号键、W键、Q键,回车存盘后退出vi。

使用WEB configuration控制(勾好SMP Auto-Startup        Enable Bigadv  选项,根据机器CPU的架构选择对应的运算Kernel核心,切记勾选Packet Size选项为Big)勾选Reboot on Submit选项 按Submit按钮 重启机器或者虚拟机,在当前包计算完毕后客户端会自动接收BA16的包,使你的及其获得最大限度的PPD得分。
二、 CUDA涡轮增压大法:适用于超频后的12T/12C台机模拟16T后能够接到BA16包

    适合WIN系统下虚拟机VirtualBox_1.5.0镜像模拟16T
在虚拟机界面~#提示符的后面输入下面的命令:
  1. echo 0-15 > /tmp/stat.save
复制代码
后再使用
  1. vi /etc/rc.d/rc.fah
复制代码
使用箭头键,将光标移到“Starting FAH Client......”下面的“cd $FPATH”的最后面,
然后按A键,再敲回车,增加一条空行~~~
在这条空行中输入下面的内容(此处为两行,非一行):
  1. mount --bind /tmp/stat.save /sys/devices/system/cpu/online
  2. sleep 15
复制代码
上面命令在一些情况下会失败,比如当你使用Ramdisk或live版Linux的时候。
此时可以改用:
  1. mount --bind -o loop /tmp/stat.save /sys/devices/system/cpu/online
  2. sleep 15
复制代码
输入完毕,键盘盲打:ESC键、冒号键、W键、Q键,回车存盘后退出vi。
使用WEB configuration控制(勾好SMP Auto-Startup        Enable Bigadv  选项,根据机器CPU的架构选择对应的运算Kernel核心,切记勾选Packet Size选项为Big)勾选Reboot on Submit选项 按Submit按钮 重启虚拟机,在当前包计算完毕后客户端会自动接收BA16的包,使你的及其获得最大限度的PPD得分。
三、 thekraken插件的安装:()适用于跑A5内核的BA包)
这个东东是双路及以上机器必须的,特别适用于推土机平台,能提升多核心计算效率提高开启DLB(dynamic load balancing)几率,最大限度榨干机器性能

对于神医原生1.3.4镜像或者VBVirtualBox_1.4.1镜像下的客户端需要先下载thekraken-0.6-x86_64-0.rar或者CUDA兄弟编译过的新版thekraken-0.7-pre15.rar 到本地硬盘后解压缩,
然后把解压缩后的6个文件复制到FAH共享目录内(对于使用其他LINUX系统的可直接下载解压缩文件到FAH安装目录下)
VirtualBox_1.5.0镜像由于内置了thekraken-0.7-pre15插件安装文件可省略上面步骤,直接进行下面操作

必须先停掉FAH计算(可在WEB 控制页面的管理员选项页面按 stop floding 按钮)后进行下面步骤:
在~#提示符的后面输入下面的命令后回车:
安装thekraken-0.6:
  1. cp /usr/local/fah/thekraken /usr/bin/
复制代码
让thekraken并随FAH客户端开启同时启动:输入下面命令后回车
  1. /usr/bin/thekraken -c autorestart=1 -i
复制代码
看到下图界面,说明  thekraken插件的安装成功

1.png


升级到thekraken-0.7:
卸载:如果从thekraken——0.6版升级到0.7版必须先卸载0.6版本输入后回车
  1. /usr/bin/thekraken -u
复制代码
thekraken-0.7-pre15.rar 解压缩后的6个文件复制到FAH共享目录内,
全新安装安装0.7版本
  1. cp /usr/local/fah/thekraken /usr/bin/
复制代码
输入后回车
  1. /usr/bin/thekraken -w
复制代码
看到下面界面安装0.7插件成功

2.jpg
四、 VirtualBox虚拟机的设置技巧

由于VB本身缺陷,带有HT的16T及以上双路机器在WIN下运行VB时只能使用到85%左右的CPU资源,适合那些运行在WIN下需要留出一定比例CPU资源运行其他程序的双路及以上机器使用,
比如4P 4830需要留出32T给其他程序运行,那么可以设置VB的处理器为32T(貌似记得最多支持32T),那么VB跑FAH满载时正好占用宿主机64T的40%资源,等等
24T及以上机器你也可以采用maxzong兄弟的关闭HT运行真实物理核心数的办法,比起开启HT落后5-10%的性能。
五、
A:  神医睿频大法 ,适用于解决神医1.3.4镜像(核心3.0.0)下无法开启E5的turbo 2.0的问题
(由于神医对此内核进行了附带程序精简,网络状态不理想的机器可能会偶尔出现不能上传计算结果的问题).
首先下载神医基于最新的kernel 3.5.4及GCC 4.7.1编译的 kernel_3.5.rar    kernel_3.5.rar (2.85 MB, 下载次数: 9436) 后,将解压缩出的 kernel_3.5.4_bfs文件复制到FAH共享目录下:然后在~#提示符的后面输入下面的命令后回车(注意:此时必须在非CORE2选项启动的机器,否则无法替换文件):
  1. cp /usr/local/fah/kernel_3.5.4_bfs /boot/linux-3.0.0-core2
  2. lilo
复制代码
然后使用WEB configuration控制(勾好选择对应的运算Kernel核心为 Core 2 ,勾选Reboot on Submit选项 按Submit按钮 重启机器,
开启机器后LILO里会自动从Core 2选项启动FAH客户端,屏幕显示linux FAH 3.5.4-gentoo核心程序,并且完美开启了Turbo 2.0进行ALL-CORE睿频运算,效率比较高


B:   CUDA睿频大法:,适用于解决神医1.3.4镜像(核心3.0.0)下无法开启E5的turbo 2.0的问题
                                    (此内核稳定性和兼容性好,推荐使用)
     首先下载CUDA兄弟根据双路E5平台编译过的Kernel-3.2.9文件,为了简便操作我已经重命名为   linux-3.0.0-amd (4.67 MB, 下载次数: 9389) ,(此为Lynt兄弟的鸟占雀巢替换法)下载后拷贝到FAH共享目录内,
然后在~#提示符的后面输入下面的命令后回车(注意:此时必须在非AMD选项启动的机器,否则无法替换文件):
  1. cp /usr/local/fah/linux-3.0.0-amd /boot/
  2. lilo
复制代码
使用WEB configuration控制(勾好选择对应的运算Kernel核心为 AMD ,勾选Reboot on Submit选项 按Submit按钮 重启机器,
开启机器后LILO里会自动从AMD选项启动FAH客户端,屏幕显示linux 3.2.9-2012-tc(tty1)核心,实际使用的是CUDA兄弟的3.2.9核心程序,并且完美开启了Turbo 2.0进行ALL-CORE睿频运算

~#提示符的后面输入下面的命令后回车
  1. uname -a
复制代码
可以查看当前核心版本
使用I7Z或者turbostat查看睿频频率:

下载 i7z (59.34 KB, 下载次数: 8779) 或者 turbostat (19.02 KB, 下载次数: 8244) 到FAH共享目录下,
在~#提示符的后面输入
  1. ./i7z
复制代码
或者
  1. ./turbostat
复制代码
回车运行,就能看到是否开启了睿频运行

3.jpg

4.jpg

5.jpg


C:    CUDA的TC大法,适用于解决神医1.3.4镜像和其他LINUX系统下无法使Bulldozer架构处理器满载TC的问题

  使用tpc-0.43破除主板功耗保护,使之完美运行在ALL-CORE的TC频率上,让推土机的强大性能得以充分发挥!

用tpc破除推土机TC限制非常简单,只需要以下一条命令
  1. TurionPowerControl -psmax 1
复制代码
回车执行过命令之后,性能立刻大幅提升

4p Opteron 6272测试结果(DLB均已打开):
1. 破除睿频限制之前
  1. p6901: 功耗660瓦, 51度, 真实频率2.26GHz, TPF=06分44秒, PPD 33.8万。
  2. p6903: 功耗670瓦, 52度, 真实频率2.24GHz, TPF=14分56秒, PPD 45.9万。
  3. p8101: 功耗670瓦, 53度, 真实频率2.18GHz, TPF=14分12秒, PPD 32.5万。
  4. p8102: 功耗670瓦, 53度, 真实频率2.20GHz, TPF=10分55秒, PPD 48.2万。
复制代码
2. 破除睿频限制之后
  1. p6901: 功耗740瓦, 56度, 真实频率2.40GHz, TPF=06分18秒, PPD 37.4万。
  2. p6903: 功耗750瓦, 56度, 真实频率2.40GHz, TPF=13分56秒, PPD 51.0万。
  3. p8101: 功耗780瓦, 57度, 真实频率2.40GHz, TPF=12分48秒, PPD 37.9万。
  4. p8102: 功耗770瓦, 57度, 真实频率2.40GHz, TPF=09分58秒, PPD 55.2万。
复制代码
六、web configuration 控制页面里开启Enable Langouste  De-coupler代理选项
开启这个代理选项最大好处就是使上传结果和下载新任务包同步进行,设置好后不用管它,代理会自动上次传后计算结果,使得机器的空闲时间减少到最小,特别适合网络不给力的机器

看到web configuration下Langouste Log内的最末尾行 如下内容,说明代理上传结果成功
  1. Thu Jul 26 18:13:25 2012 (0) Ratelimit: sent 222455025 byte(s) in 1816.266 seconds, 122479 Bps (119.60 kBps)
复制代码
VirtualBox镜像和原生LINUX1.3.4镜像下更新Langouste3版本到新版本:  
首先下载CUDA兄弟编译过的    langouste3-15.18.rar (44.7 KB, 下载次数: 7670)    或者xiaoren6412兄弟编译过的    langouste3-0.15.8.3.rar 后,
解压缩,然后把解压出来的langouste3和langouste3-doc复制到FAH共享目录替换原文件和文件夹后重启客户端后加载新版本
最新未编译版本下载:Langouste -- WU upload/download de-coupler (+upload capping)

langouste运行状态如下图所示
6.png
七:   CUDA牌DLB(dynamic load balancing)激活插件

DLB是SMP/BA包中使用到的一种并行计算的优化技术,根据包的不同,DLB on比DLB off可以提升3-10%的PPD。
但是DLB只能自动激活,不受参数控制,如果碰巧DLB没被激活,就会白白造成PPD的损失。

首先下载 cpubusy-0.2.rar ,按照下面方法操作:
cpubusy使用方法:
如果发现当前运行的包没有激活DLB,那么:
1、中止所有FAH进程
2、运行cpubusy,语法为:
  1. ./cpubusy N
复制代码
注:其中N通常取CPU线程数的一半

3、重新启动FAH进程
4、等待几分钟,然后观察DLB是否开启,如果开启了就可以人工关闭cpubusy,或者等待5分钟后cpubusy自动关闭。
人工关闭cpubusy的命令是:
  1. killall -9 cpubusy
复制代码
注意,cpubusy提升DLB几率的原理是和fah程序抢占CPU。如果因为某些bug 5分钟后cpubusy没有自动关闭,那么必须人工关闭,否则会严重影响PPD。
此外,目前的版本因为需要人工干预,不大适合频繁使用,只适合测试用途。将来可考虑改进为自动版本。

暂时能想到的就这么,其他兄弟还有什么提升PPD和运算效率的技巧可以一并发帖上来分享



评分

参与人数 2基本分 +14 收起 理由
Keyco + 4 绝赞。
ONLY + 10 精品文章

查看全部评分

回复

使用道具 举报

发表于 2012-7-27 23:52:52 | 显示全部楼层
回复 1# 金鹏

辛苦了!资料很详细。如果能把一些BIOS设置、硬件优化搭配方面的技巧也加进来就更好了。
回复

使用道具 举报

发表于 2012-7-27 23:52:55 | 显示全部楼层
大合集啊
回复

使用道具 举报

发表于 2012-7-28 00:08:47 | 显示全部楼层
赞一下,很丰富的资料
回复

使用道具 举报

发表于 2012-7-28 00:19:20 | 显示全部楼层
大工程啊!赞一个。
回复

使用道具 举报

发表于 2012-7-28 01:29:21 | 显示全部楼层
金老版辛苦了~看看过几天会不会有FAH Native镜像的惊喜带给大家,呵呵
不过正好也有机会折腾VB的镜像
回复

使用道具 举报

发表于 2012-7-28 02:18:14 | 显示全部楼层
学习。
回复

使用道具 举报

发表于 2012-7-28 08:23:38 | 显示全部楼层
金版V5。

前人栽树,后人乘凉~~
回复

使用道具 举报

 楼主| 发表于 2012-7-28 08:50:01 | 显示全部楼层
回复 2# cuda

这个目前还做不到,机器种类忒多,完全没法吃透,

但是可以考虑针对4P推土机设置和2P/4P的E5设置做些讨论
回复

使用道具 举报

 楼主| 发表于 2012-7-28 08:59:43 | 显示全部楼层
回复 3# woaiwinnie2
回复 4# wpf999

感谢兄弟们观赏
回复

使用道具 举报

 楼主| 发表于 2012-7-28 09:01:14 | 显示全部楼层
回复 5# Keyco

兄弟可气了,不过是整理一下。

也有兄弟的功劳,没有你发现1.3.4下无TB2,也不会有后面的CUDA睿频大法了
回复

使用道具 举报

 楼主| 发表于 2012-7-28 09:02:37 | 显示全部楼层
金老版辛苦了~看看过几天会不会有FAH Native镜像的惊喜带给大家,呵呵
不过正好也有机会折腾VB的镜像 ...
muclemanxb 发表于 2012-7-28 01:29



    感谢兄弟再次给镜像制作者发去MAIL,期待新版本内能完美解决TB2和DLB开启率的问题
回复

使用道具 举报

 楼主| 发表于 2012-7-28 09:03:30 | 显示全部楼层
回复 7# alen
回复 8# superTWT

兄弟们空闲时也折腾腾
回复

使用道具 举报

发表于 2012-7-30 08:21:23 | 显示全部楼层
回复 13# 金鹏


     恩~~有机会定会追随金版的脚步。

   毕竟,有的折腾也是偶当年加入DC的原因之一。

评分

参与人数 1基本分 +6 收起 理由
金鹏 + 6 我很赞同

查看全部评分

回复

使用道具 举报

发表于 2012-7-30 22:42:25 | 显示全部楼层
金版辛苦!

由于linuxforge.net的原生镜像基于slackware Linux,而这个Linux分支的稳定版目前还停留在2.6时代~~~

所以由于源码较旧的关系,对多路系统和睿频等等新特性的支持不够好,暂时不能完全释放牛机的效能~~~

按照Slackware Linux早前版本的发行间隔,近期或许会有新的稳定版释出,大约会是基于新的3.2系列核心,对多路系统和睿频的支持可望获得长足的进步~~~

个人猜测,linuxforge.net的作者也是巴巴的等着新版释出,这样才方便制作新的镜像~~~

至于VB虚拟机的那个1.5.0新版,大约是为了测试新特性和稳定性的版本,后续还会有新版~~~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-4-27 01:31

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表