找回密码
 新注册用户
搜索
查看: 7408|回复: 15

[注意] 号外:7.415还是卡包了,守护程序发挥作用

[复制链接]
发表于 2016-9-8 19:45:45 | 显示全部楼层 |阅读模式
1.号外:7.415还是卡包了,守护发挥作用。
2.而且好像守护重启程序后,客户端对显卡还认错。
第2点不敢确定,因为今天比较忙,长时间没在电脑前,刚才看到啤酒罐的温度偏低,感觉不对才紧急查看,没想到真出问题。
@金鹏 @Lynt


另外本平台有三张卡,
FAH 里的system info是
GPU0:R7 (Kaveri 核显)
GPU1:R9 370X(Hawaii,R9 200)
GPU2:RX 470 (Ellesmere XT RX480)
如下图
3GPU.JPG

只跑370X和470,启作用的正确设置如下图
370.JPG

470.JPG


下面是守护日志的截图
shouhu.JPG

下面附件有三:守护生成的日志,两个相关的log
FAH_Daemon_7.4.15_20160908卡包处理.log (44 Bytes, 下载次数: 5795)


log-20160908-062748.txt (281.81 KB, 下载次数: 3725)


log-20160908-111819.txt (58.18 KB, 下载次数: 3553)





回复

使用道具 举报

发表于 2016-9-8 21:26:23 | 显示全部楼层
本帖最后由 金鹏 于 2016-9-8 21:29 编辑

你的卡包设置时间是30分钟?

多卡用了以后重开客户端会少跑一个slot
回复

使用道具 举报

 楼主| 发表于 2016-9-8 21:59:13 来自手机 | 显示全部楼层
金鹏 发表于 2016-9-8 21:26 你的卡包设置时间是30分钟? 多卡用了以后重开客户端会少跑一个slot

是的,30分钟。

重开客户端,slot里的gpu opencl都变成默认的-1,也就是任务都加载到核显上。
回复

使用道具 举报

发表于 2016-9-9 09:20:25 | 显示全部楼层
金鹏 发表于 2016-9-8 21:26
你的卡包设置时间是30分钟?

多卡用了以后重开客户端会少跑一个slot

人工重启客户端就会少SLOT?
回复

使用道具 举报

 楼主| 发表于 2016-9-9 09:54:27 | 显示全部楼层
Lynt 发表于 2016-9-9 09:20
人工重启客户端就会少SLOT?

不是少SLOT。我这里是这样的:

是所有opencl-index会变回-1。如下图

这个-1是对应客户端system info显示的GPU0。


我三个GPU,如果都变-1,所有包就加载到核显R7上,然后就一个running,另外的排队ready.
我试验过,只要是任务管理器结束进程,就会出现这种情况。
如果是非法关机,则有时会,有时不会
只有是任务栏右键点图标退出,才是一定正常的

回复

使用道具 举报

发表于 2016-9-9 11:35:14 | 显示全部楼层
horst1981 发表于 2016-9-9 09:54
不是少SLOT。我这里是这样的:

是所有opencl-index会变回-1。如下图

这就蛋疼了,老版本卡包是无法正常退出的,只能杀进程,新版正常退出能关掉fahclient.exe进程吗?
回复

使用道具 举报

 楼主| 发表于 2016-9-9 11:48:24 | 显示全部楼层
Lynt 发表于 2016-9-9 11:35
这就蛋疼了,老版本卡包是无法正常退出的,只能杀进程,新版正常退出能关掉fahclient.exe进程吗?
...

正常退出,也就是下图这种方式,系统里的fahclient进程和core 进程能关掉,客户端重启后GPU设置不会跳回默认。 正常退出.jpg

如果在任务管理器杀进程就会出现,客户端重启会GPU设置里opencl-index都跳回-1。
所以我才怀疑守护重启进程后,客户端又认错GPU的opencl-index。
当然,单卡的话,就不会有我这种问题,因为默认都是-1不会出错。
这个归根到底还是新版对多卡的支持有问题。
同样,我另一台两张N卡,也是WIN10,用的是7.4.4,守护启作用就不会产生这种问题。
回复

使用道具 举报

发表于 2016-9-9 11:53:36 | 显示全部楼层
horst1981 发表于 2016-9-9 11:48
正常退出,也就是下图这种方式,系统里的fahclient进程和core 进程能关掉,客户端重启后GPU设置不会跳回 ...

我的意思是卡包时能正常退出吗?
回复

使用道具 举报

 楼主| 发表于 2016-9-9 12:01:07 | 显示全部楼层
Lynt 发表于 2016-9-9 11:53
我的意思是卡包时能正常退出吗?

不能。
不过到目前为止卡包出现两次,第二次是这帖里说的。



第一次在金版的帖子里跟帖里,当时没开守护,远程发现卡包后远程操作,并不能正常退出。
任务栏上我右键点图标退出后,发现任务管理器仍然有fahclient和FahCore21两个进程,要杀进程后才能重启客户端,但是重启后GPU还是乱了。
回复

使用道具 举报

发表于 2016-9-9 12:14:48 | 显示全部楼层
horst1981 发表于 2016-9-9 12:01
不能。
不过到目前为止卡包出现两次,第二次是这帖里说的。

确认一下,新版本设置了index信息会保存在配置文件中的吧
回复

使用道具 举报

 楼主| 发表于 2016-9-9 16:14:29 | 显示全部楼层
本帖最后由 horst1981 于 2016-9-9 16:19 编辑
Lynt 发表于 2016-9-9 12:14
确认一下,新版本设置了index信息会保存在配置文件中的吧

这个我不知道要看哪个文件。
请问需要看哪个文件?


我的观察是:
卡包重守护重启了客户端,
生成log-20160909-111819.txt
这里面的配置参数是启正确的(图中1的红圈里),
但实际上客户端slot里的两个GPU opencl-index都已经变成-1了。
于是,就有了找不到正确的slot(图中2的红圈里):
kabaohoushezhe.JPG
由于后面我没注意,所以这个log里面后面的内容都是一直出错。

刚才重新查看logs,发现昨天少传了一个log,我发现问题后重新设置才生成的。
log-20160909-012610.txt (37.82 KB, 下载次数: 3342)

11:18:19:***********************************************************************
11:18:19:<config>
11:18:19:  <!-- Network -->
11:18:19:  <proxy v=':8080'/>
11:18:19:
11:18:19:  <!-- Slot Control -->
11:18:19:  <power v='full'/>
11:18:19:
11:18:19:  <!-- User Information -->
11:18:19:  <passkey v='********************************'/>
11:18:19:  <team v='3213'/>
11:18:19:  <user v='horst1981'/>
11:18:19:
11:18:19:  <!-- Folding Slots -->
11:18:19:  <slot id='0' type='GPU'>
11:18:19:    <cuda-index v='2'/>
11:18:19:    <gpu-index v='1'/>
11:18:19:  </slot>
11:18:19:  <slot id='1' type='GPU'>
11:18:19:    <cuda-index v='1'/>
11:18:19:    <gpu-index v='2'/>
11:18:19:  </slot>
11:18:19:</config>
11:18:19:Trying to access database...
11:18:19:Successfully acquired database lock
11:18:19:Enabled folding slot 00: READY gpu:1:Hawaii [Radeon R9 200 Series]
11:18:19:Enabled folding slot 01: READY gpu:2:Ellesmere XT [Radeon RX 480]
11:18:19:ERROR:No compute devices matched GPU #2 ATI:5 Ellesmere XT [Radeon RX 480].  You may need to update your graphics drivers.
11:18:19:WU00:FS00:Starting
11:18:19:WU00:FS00:Running FahCore: "C:\Program Files\FAHClient/FAHCoreWrapper.exe" C:\ProgramData\FAHClient\cores/web.stanford.edu/~pande/Win32/AMD64/ATI/R600/Core_21.fah/FahCore_21.exe -dir 00 -suffix 01 -version 704 -lifeline 10476 -checkpoint 15 -opencl-platform 0 -gpu-vendor ati -gpu 0
11:18:19:WU00:FS00:Started FahCore on PID 18636
11:18:20:WU00:FS00:Core PID:22716
11:18:20:WU00:FS00:FahCore 0x21 started
11:18:20:WU01:FS01:Starting
11:18:20:ERROR:WU01:FS01:Failed to start core: OpenCL device matching slot 1 not found
11:18:20:WU01:FS01:Starting
11:18:20:ERROR:WU01:FS01:Failed to start core: OpenCL device matching slot 1 not found      
(以上部分,未更改客户端设置,没有opencl-index,实际客户端里opencl-index显示-1。还是出错,下面我暂停,然后开始手动更改设置)
11:18:20:WU00:FS00:0x21:*********************** Log Started 2016-09-08T11:18:20Z ***********************
11:18:20:WU00:FS00:0x21:Project: 10495 (Run 14, Clone 21, Gen 30)
11:18:20:WU00:FS00:0x21:Unit: 0x000000298ca304f556ba63c83d0aad0b
11:18:20:WU00:FS00:0x21:CPU: 0x00000000000000000000000000000000
11:18:20:WU00:FS00:0x21:Machine: 0
11:18:20:WU00:FS00:0x21:Digital signatures verified
11:18:20:WU00:FS00:0x21:Folding@home GPU Core21 Folding@home Core
11:18:20:WU00:FS00:0x21:Version 0.0.17
11:18:22:WU00:FS00:0x21:  Found a checkpoint file
11:18:25:FS00:Paused
11:18:25:FS01:Paused
11:18:26:FS00:Shutting core down
11:18:26:WU00:FS00:0x21:WARNING:Console control signal 1 on PID 22716
11:18:26:WU00:FS00:0x21:Exiting, please wait. . .
11:18:36:WU00:FS00:0x21:Completed 500000 out of 5000000 steps (10%)
11:18:36:WU00:FS00:0x21:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
11:18:36:WU00:FS00:0x21:Folding@home Core Shutdown: INTERRUPTED
11:18:36:WU00:FS00:FahCore returned: INTERRUPTED (102 = 0x66)
11:18:46:Removing old file 'configs/config-20160830-004440.xml'
11:18:46:Saving configuration to config.xml
11:18:46:<config>
11:18:46:  <!-- Network -->
11:18:46:  <proxy v=':8080'/>
11:18:46:
11:18:46:  <!-- Slot Control -->
11:18:46:  <power v='full'/>
11:18:46:
11:18:46:  <!-- User Information -->
11:18:46:  <passkey v='********************************'/>
11:18:46:  <team v='3213'/>
11:18:46:  <user v='horst1981'/>
11:18:46:
11:18:46:  <!-- Folding Slots -->
11:18:46:  <slot id='0' type='GPU'>
11:18:46:    <cuda-index v='2'/>
11:18:46:    <gpu-index v='1'/>
11:18:46:    <opencl-index v='2'/>
11:18:46:    <paused v='true'/>
11:18:46:  </slot>
11:18:46:  <slot id='1' type='GPU'>
11:18:46:    <cuda-index v='1'/>
11:18:46:    <gpu-index v='2'/>
11:18:46:    <opencl-index v='1'/>
11:18:46:    <paused v='true'/>
11:18:46:  </slot>
11:18:46:</config>
11:18:49:FS00:Unpaused
11:18:49:FS01:Unpaused
11:18:49:WU00:FS00:Starting
11:18:49:WU00:FS00:Running FahCore: "C:\Program Files\FAHClient/FAHCoreWrapper.exe" C:\ProgramData\FAHClient\cores/web.stanford.edu/~pande/Win32/AMD64/ATI/R600/Core_21.fah/FahCore_21.exe -dir 00 -suffix 01 -version 704 -lifeline 10476 -checkpoint 15 -opencl-platform 0 -gpu-vendor ati -gpu 2
11:18:49:WU00:FS00:Started FahCore on PID 1264
11:18:49:WU00:FS00:Core PID:25320
11:18:49:WU00:FS00:FahCore 0x21 started
11:18:49:WU00:FS00:0x21:*********************** Log Started 2016-09-08T11:18:49Z ***********************
11:18:49:WU00:FS00:0x21:Project: 10495 (Run 14, Clone 21, Gen 30)
11:18:49:WU00:FS00:0x21:Unit: 0x000000298ca304f556ba63c83d0aad0b
11:18:49:WU00:FS00:0x21:CPU: 0x00000000000000000000000000000000
11:18:49:WU00:FS00:0x21:Machine: 0
11:18:49:WU00:FS00:0x21:Digital signatures verified
11:18:49:WU00:FS00:0x21:Folding@home GPU Core21 Folding@home Core
11:18:49:WU00:FS00:0x21:Version 0.0.17
11:18:51:WU00:FS00:0x21:  Found a checkpoint file
11:19:04:WU00:FS00:0x21:Completed 500000 out of 5000000 steps (10%)
11:19:05:WU00:FS00:0x21:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
11:19:20:Removing old file 'configs/config-20160830-004642.xml'
11:19:20:Saving configuration to config.xml
11:19:20:<config>
11:19:20:  <!-- Network -->
11:19:20:  <proxy v=':8080'/>
11:19:20:
11:19:20:  <!-- Slot Control -->
11:19:20:  <power v='full'/>
11:19:20:
11:19:20:  <!-- User Information -->
11:19:20:  <passkey v='********************************'/>
11:19:20:  <team v='3213'/>
11:19:20:  <user v='horst1981'/>
11:19:20:
11:19:20:  <!-- Folding Slots -->
11:19:20:  <slot id='0' type='GPU'>
11:19:20:    <cuda-index v='2'/>
11:19:20:    <gpu-index v='1'/>
11:19:20:    <opencl-index v='2'/>
11:19:20:  </slot>
11:19:20:  <slot id='1' type='GPU'>
11:19:20:    <cuda-index v='1'/>
11:19:20:    <gpu-index v='2'/>
11:19:20:    <opencl-index v='1'/>
11:19:20:  </slot>
11:19:20:</config>
11:19:20:WU01:FS01:Starting
11:19:20:WU01:FS01:Running FahCore: "C:\Program Files\FAHClient/FAHCoreWrapper.exe" C:\ProgramData\FAHClient\cores/web.stanford.edu/~pande/Win32/AMD64/ATI/R600/Core_21.fah/FahCore_21.exe -dir 01 -suffix 01 -version 704 -lifeline 10476 -checkpoint 15 -gpu-vendor ati -gpu 1
11:19:20:WU01:FS01:Started FahCore on PID 23724
11:19:20:WU01:FS01:Core PID:19108
11:19:20:WU01:FS01:FahCore 0x21 started
(以上更改后保存,没有重启客户端,双卡正常开算,下面就都正常了。)
11:19:21:WU01:FS01:0x21:*********************** Log Started 2016-09-08T11:19:20Z ***********************
11:19:21:WU01:FS01:0x21:Project: 11703 (Run 0, Clone 414, Gen 72)
11:19:21:WU01:FS01:0x21:Unit: 0x0000005d8ca304f35689621c4cb67036
11:19:21:WU01:FS01:0x21:CPU: 0x00000000000000000000000000000000
11:19:21:WU01:FS01:0x21:Machine: 1
11:19:21:WU01:FS01:0x21:Reading tar file core.xml
11:19:21:WU01:FS01:0x21:Reading tar file system.xml
11:19:21:WU01:FS01:0x21:Reading tar file integrator.xml
11:19:21:WU01:FS01:0x21:Reading tar file state.xml
11:19:22:WU01:FS01:0x21:Digital signatures verified
11:19:22:WU01:FS01:0x21:Folding@home GPU Core21 Folding@home Core
11:19:22:WU01:FS01:0x21:Version 0.0.17
11:19:39:WU01:FS01:0x21:Completed 0 out of 5000000 steps (0%)
11:19:39:WU01:FS01:0x21:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
11:25:22:WU00:FS00:0x21:Completed 550000 out of 5000000 steps (11%)
11:25:49:WU01:FS01:0x21:Completed 50000 out of 5000000 steps (1%)
11:31:39:WU00:FS00:0x21:Completed 600000 out of 5000000 steps (12%)
11:31:57:WU01:FS01:0x21:Completed 100000 out of 5000000 steps (2%)
11:37:56:WU00:FS00:0x21:Completed 650000 out of 5000000 steps (13%)
11:38:05:WU01:FS01:0x21:Completed 150000 out of 5000000 steps (3%)
11:44:11:WU00:FS00:0x21:Completed 700000 out of 5000000 steps (14%)
11:44:13:WU01:FS01:0x21:Completed 200000 out of 5000000 steps (4%)
11:50:21:WU01:FS01:0x21:Completed 250000 out of 5000000 steps (5%)
11:50:27:WU00:FS00:0x21:Completed 750000 out of 5000000 steps (15%)







回复

使用道具 举报

发表于 2016-9-9 16:15:35 | 显示全部楼层
Lynt 发表于 2016-9-9 09:20
人工重启客户端就会少SLOT?

是的,slots错位少一个

参见 http://www.equn.com/forum/thread-42382-1-1.html
回复

使用道具 举报

发表于 2016-9-9 17:22:28 | 显示全部楼层
看来我得找个时间装来玩一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-4-20 19:37

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表