horst1981 发表于 2016-9-8 19:45:45

号外:7.415还是卡包了,守护程序发挥作用

1.号外:7.415还是卡包了,守护发挥作用。
2.而且好像守护重启程序后,客户端对显卡还认错。
第2点不敢确定,因为今天比较忙,长时间没在电脑前,刚才看到啤酒罐的温度偏低,感觉不对才紧急查看,没想到真出问题。
@金鹏 @Lynt


另外本平台有三张卡,
FAH 里的system info是
GPU0:R7 (Kaveri 核显)
GPU1:R9 370X(Hawaii,R9 200)
GPU2:RX 470 (Ellesmere XT RX480)
如下图


只跑370X和470,启作用的正确设置如下图





下面是守护日志的截图


下面附件有三:守护生成的日志,两个相关的log












金鹏 发表于 2016-9-8 21:26:23

本帖最后由 金鹏 于 2016-9-8 21:29 编辑

你的卡包设置时间是30分钟?

多卡用了以后重开客户端会少跑一个slot

horst1981 发表于 2016-9-8 21:59:13

金鹏 发表于 2016-9-8 21:26 你的卡包设置时间是30分钟? 多卡用了以后重开客户端会少跑一个slot

是的,30分钟。

重开客户端,slot里的gpu opencl都变成默认的-1,也就是任务都加载到核显上。

Lynt 发表于 2016-9-9 09:20:25

金鹏 发表于 2016-9-8 21:26
你的卡包设置时间是30分钟?

多卡用了以后重开客户端会少跑一个slot

人工重启客户端就会少SLOT?

horst1981 发表于 2016-9-9 09:54:27

Lynt 发表于 2016-9-9 09:20
人工重启客户端就会少SLOT?

不是少SLOT。我这里是这样的:

是所有opencl-index会变回-1。如下图
http://www.equn.com/forum/data/attachment/forum/201608/30/091004r6j6yi1sf6vsgtjt.jpg
这个-1是对应客户端system info显示的GPU0。

http://www.equn.com/forum/data/attachment/forum/201609/08/194353muzj0aua11aj6aqa.jpg
我三个GPU,如果都变-1,所有包就加载到核显R7上,然后就一个running,另外的排队ready.
我试验过,只要是任务管理器结束进程,就会出现这种情况。
如果是非法关机,则有时会,有时不会
只有是任务栏右键点图标退出,才是一定正常的

Lynt 发表于 2016-9-9 11:35:14

horst1981 发表于 2016-9-9 09:54
不是少SLOT。我这里是这样的:

是所有opencl-index会变回-1。如下图


这就蛋疼了,老版本卡包是无法正常退出的,只能杀进程,新版正常退出能关掉fahclient.exe进程吗?

horst1981 发表于 2016-9-9 11:48:24

Lynt 发表于 2016-9-9 11:35
这就蛋疼了,老版本卡包是无法正常退出的,只能杀进程,新版正常退出能关掉fahclient.exe进程吗?
...

正常退出,也就是下图这种方式,系统里的fahclient进程和core 进程能关掉,客户端重启后GPU设置不会跳回默认。

如果在任务管理器杀进程就会出现,客户端重启会GPU设置里opencl-index都跳回-1。
所以我才怀疑守护重启进程后,客户端又认错GPU的opencl-index。
当然,单卡的话,就不会有我这种问题,因为默认都是-1不会出错。
这个归根到底还是新版对多卡的支持有问题。
同样,我另一台两张N卡,也是WIN10,用的是7.4.4,守护启作用就不会产生这种问题。

Lynt 发表于 2016-9-9 11:53:36

horst1981 发表于 2016-9-9 11:48
正常退出,也就是下图这种方式,系统里的fahclient进程和core 进程能关掉,客户端重启后GPU设置不会跳回 ...

我的意思是卡包时能正常退出吗?

horst1981 发表于 2016-9-9 12:01:07

Lynt 发表于 2016-9-9 11:53
我的意思是卡包时能正常退出吗?

不能。
不过到目前为止卡包出现两次,第二次是这帖里说的。



第一次在金版的帖子里跟帖里,当时没开守护,远程发现卡包后远程操作,并不能正常退出。
任务栏上我右键点图标退出后,发现任务管理器仍然有fahclient和FahCore21两个进程,要杀进程后才能重启客户端,但是重启后GPU还是乱了。

Lynt 发表于 2016-9-9 12:14:48

horst1981 发表于 2016-9-9 12:01
不能。
不过到目前为止卡包出现两次,第二次是这帖里说的。



确认一下,新版本设置了index信息会保存在配置文件中的吧

horst1981 发表于 2016-9-9 16:14:29

本帖最后由 horst1981 于 2016-9-9 16:19 编辑

Lynt 发表于 2016-9-9 12:14
确认一下,新版本设置了index信息会保存在配置文件中的吧
这个我不知道要看哪个文件。
请问需要看哪个文件?


我的观察是:
卡包重守护重启了客户端,
生成log-20160909-111819.txt
这里面的配置参数是启正确的(图中1的红圈里),
但实际上客户端slot里的两个GPU opencl-index都已经变成-1了。
于是,就有了找不到正确的slot(图中2的红圈里):

由于后面我没注意,所以这个log里面后面的内容都是一直出错。

刚才重新查看logs,发现昨天少传了一个log,我发现问题后重新设置才生成的。


11:18:19:***********************************************************************
11:18:19:<config>
11:18:19:<!-- Network -->
11:18:19:<proxy v=':8080'/>
11:18:19:
11:18:19:<!-- Slot Control -->
11:18:19:<power v='full'/>
11:18:19:
11:18:19:<!-- User Information -->
11:18:19:<passkey v='********************************'/>
11:18:19:<team v='3213'/>
11:18:19:<user v='horst1981'/>
11:18:19:
11:18:19:<!-- Folding Slots -->
11:18:19:<slot id='0' type='GPU'>
11:18:19:    <cuda-index v='2'/>
11:18:19:    <gpu-index v='1'/>
11:18:19:</slot>
11:18:19:<slot id='1' type='GPU'>
11:18:19:    <cuda-index v='1'/>
11:18:19:    <gpu-index v='2'/>
11:18:19:</slot>
11:18:19:</config>
11:18:19:Trying to access database...
11:18:19:Successfully acquired database lock
11:18:19:Enabled folding slot 00: READY gpu:1:Hawaii
11:18:19:Enabled folding slot 01: READY gpu:2:Ellesmere XT
11:18:19:ERROR:No compute devices matched GPU #2 ATI:5 Ellesmere XT .You may need to update your graphics drivers.
11:18:19:WU00:FS00:Starting
11:18:19:WU00:FS00:Running FahCore: "C:\Program Files\FAHClient/FAHCoreWrapper.exe" C:\ProgramData\FAHClient\cores/web.stanford.edu/~pande/Win32/AMD64/ATI/R600/Core_21.fah/FahCore_21.exe -dir 00 -suffix 01 -version 704 -lifeline 10476 -checkpoint 15 -opencl-platform 0 -gpu-vendor ati -gpu 0
11:18:19:WU00:FS00:Started FahCore on PID 18636
11:18:20:WU00:FS00:Core PID:22716
11:18:20:WU00:FS00:FahCore 0x21 started
11:18:20:WU01:FS01:Starting
11:18:20:ERROR:WU01:FS01:Failed to start core: OpenCL device matching slot 1 not found
11:18:20:WU01:FS01:Starting
11:18:20:ERROR:WU01:FS01:Failed to start core: OpenCL device matching slot 1 not found      
(以上部分,未更改客户端设置,没有opencl-index,实际客户端里opencl-index显示-1。还是出错,下面我暂停,然后开始手动更改设置)
11:18:20:WU00:FS00:0x21:*********************** Log Started 2016-09-08T11:18:20Z ***********************
11:18:20:WU00:FS00:0x21:Project: 10495 (Run 14, Clone 21, Gen 30)
11:18:20:WU00:FS00:0x21:Unit: 0x000000298ca304f556ba63c83d0aad0b
11:18:20:WU00:FS00:0x21:CPU: 0x00000000000000000000000000000000
11:18:20:WU00:FS00:0x21:Machine: 0
11:18:20:WU00:FS00:0x21:Digital signatures verified
11:18:20:WU00:FS00:0x21:Folding@home GPU Core21 Folding@home Core
11:18:20:WU00:FS00:0x21:Version 0.0.17
11:18:22:WU00:FS00:0x21:Found a checkpoint file
11:18:25:FS00:Paused
11:18:25:FS01:Paused
11:18:26:FS00:Shutting core down
11:18:26:WU00:FS00:0x21:WARNING:Console control signal 1 on PID 22716
11:18:26:WU00:FS00:0x21:Exiting, please wait. . .
11:18:36:WU00:FS00:0x21:Completed 500000 out of 5000000 steps (10%)
11:18:36:WU00:FS00:0x21:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
11:18:36:WU00:FS00:0x21:Folding@home Core Shutdown: INTERRUPTED
11:18:36:WU00:FS00:FahCore returned: INTERRUPTED (102 = 0x66)
11:18:46:Removing old file 'configs/config-20160830-004440.xml'
11:18:46:Saving configuration to config.xml
11:18:46:<config>
11:18:46:<!-- Network -->
11:18:46:<proxy v=':8080'/>
11:18:46:
11:18:46:<!-- Slot Control -->
11:18:46:<power v='full'/>
11:18:46:
11:18:46:<!-- User Information -->
11:18:46:<passkey v='********************************'/>
11:18:46:<team v='3213'/>
11:18:46:<user v='horst1981'/>
11:18:46:
11:18:46:<!-- Folding Slots -->
11:18:46:<slot id='0' type='GPU'>
11:18:46:    <cuda-index v='2'/>
11:18:46:    <gpu-index v='1'/>
11:18:46:    <opencl-index v='2'/>
11:18:46:    <paused v='true'/>
11:18:46:</slot>
11:18:46:<slot id='1' type='GPU'>
11:18:46:    <cuda-index v='1'/>
11:18:46:    <gpu-index v='2'/>
11:18:46:    <opencl-index v='1'/>
11:18:46:    <paused v='true'/>
11:18:46:</slot>
11:18:46:</config>
11:18:49:FS00:Unpaused
11:18:49:FS01:Unpaused
11:18:49:WU00:FS00:Starting
11:18:49:WU00:FS00:Running FahCore: "C:\Program Files\FAHClient/FAHCoreWrapper.exe" C:\ProgramData\FAHClient\cores/web.stanford.edu/~pande/Win32/AMD64/ATI/R600/Core_21.fah/FahCore_21.exe -dir 00 -suffix 01 -version 704 -lifeline 10476 -checkpoint 15 -opencl-platform 0 -gpu-vendor ati -gpu 2
11:18:49:WU00:FS00:Started FahCore on PID 1264
11:18:49:WU00:FS00:Core PID:25320
11:18:49:WU00:FS00:FahCore 0x21 started
11:18:49:WU00:FS00:0x21:*********************** Log Started 2016-09-08T11:18:49Z ***********************
11:18:49:WU00:FS00:0x21:Project: 10495 (Run 14, Clone 21, Gen 30)
11:18:49:WU00:FS00:0x21:Unit: 0x000000298ca304f556ba63c83d0aad0b
11:18:49:WU00:FS00:0x21:CPU: 0x00000000000000000000000000000000
11:18:49:WU00:FS00:0x21:Machine: 0
11:18:49:WU00:FS00:0x21:Digital signatures verified
11:18:49:WU00:FS00:0x21:Folding@home GPU Core21 Folding@home Core
11:18:49:WU00:FS00:0x21:Version 0.0.17
11:18:51:WU00:FS00:0x21:Found a checkpoint file
11:19:04:WU00:FS00:0x21:Completed 500000 out of 5000000 steps (10%)
11:19:05:WU00:FS00:0x21:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
11:19:20:Removing old file 'configs/config-20160830-004642.xml'
11:19:20:Saving configuration to config.xml
11:19:20:<config>
11:19:20:<!-- Network -->
11:19:20:<proxy v=':8080'/>
11:19:20:
11:19:20:<!-- Slot Control -->
11:19:20:<power v='full'/>
11:19:20:
11:19:20:<!-- User Information -->
11:19:20:<passkey v='********************************'/>
11:19:20:<team v='3213'/>
11:19:20:<user v='horst1981'/>
11:19:20:
11:19:20:<!-- Folding Slots -->
11:19:20:<slot id='0' type='GPU'>
11:19:20:    <cuda-index v='2'/>
11:19:20:    <gpu-index v='1'/>
11:19:20:    <opencl-index v='2'/>
11:19:20:</slot>
11:19:20:<slot id='1' type='GPU'>
11:19:20:    <cuda-index v='1'/>
11:19:20:    <gpu-index v='2'/>
11:19:20:    <opencl-index v='1'/>
11:19:20:</slot>
11:19:20:</config>
11:19:20:WU01:FS01:Starting
11:19:20:WU01:FS01:Running FahCore: "C:\Program Files\FAHClient/FAHCoreWrapper.exe" C:\ProgramData\FAHClient\cores/web.stanford.edu/~pande/Win32/AMD64/ATI/R600/Core_21.fah/FahCore_21.exe -dir 01 -suffix 01 -version 704 -lifeline 10476 -checkpoint 15 -gpu-vendor ati -gpu 1
11:19:20:WU01:FS01:Started FahCore on PID 23724
11:19:20:WU01:FS01:Core PID:19108
11:19:20:WU01:FS01:FahCore 0x21 started
(以上更改后保存,没有重启客户端,双卡正常开算,下面就都正常了。)
11:19:21:WU01:FS01:0x21:*********************** Log Started 2016-09-08T11:19:20Z ***********************
11:19:21:WU01:FS01:0x21:Project: 11703 (Run 0, Clone 414, Gen 72)
11:19:21:WU01:FS01:0x21:Unit: 0x0000005d8ca304f35689621c4cb67036
11:19:21:WU01:FS01:0x21:CPU: 0x00000000000000000000000000000000
11:19:21:WU01:FS01:0x21:Machine: 1
11:19:21:WU01:FS01:0x21:Reading tar file core.xml
11:19:21:WU01:FS01:0x21:Reading tar file system.xml
11:19:21:WU01:FS01:0x21:Reading tar file integrator.xml
11:19:21:WU01:FS01:0x21:Reading tar file state.xml
11:19:22:WU01:FS01:0x21:Digital signatures verified
11:19:22:WU01:FS01:0x21:Folding@home GPU Core21 Folding@home Core
11:19:22:WU01:FS01:0x21:Version 0.0.17
11:19:39:WU01:FS01:0x21:Completed 0 out of 5000000 steps (0%)
11:19:39:WU01:FS01:0x21:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
11:25:22:WU00:FS00:0x21:Completed 550000 out of 5000000 steps (11%)
11:25:49:WU01:FS01:0x21:Completed 50000 out of 5000000 steps (1%)
11:31:39:WU00:FS00:0x21:Completed 600000 out of 5000000 steps (12%)
11:31:57:WU01:FS01:0x21:Completed 100000 out of 5000000 steps (2%)
11:37:56:WU00:FS00:0x21:Completed 650000 out of 5000000 steps (13%)
11:38:05:WU01:FS01:0x21:Completed 150000 out of 5000000 steps (3%)
11:44:11:WU00:FS00:0x21:Completed 700000 out of 5000000 steps (14%)
11:44:13:WU01:FS01:0x21:Completed 200000 out of 5000000 steps (4%)
11:50:21:WU01:FS01:0x21:Completed 250000 out of 5000000 steps (5%)
11:50:27:WU00:FS00:0x21:Completed 750000 out of 5000000 steps (15%)







金鹏 发表于 2016-9-9 16:15:35

Lynt 发表于 2016-9-9 09:20
人工重启客户端就会少SLOT?

是的,slots错位少一个

参见 http://www.equn.com/forum/thread-42382-1-1.html

Lynt 发表于 2016-9-9 17:22:28

看来我得找个时间装来玩一下
页: [1]
查看完整版本: 号外:7.415还是卡包了,守护程序发挥作用

论坛官方淘宝店开业啦~