找回密码
 新注册用户
搜索
查看: 6141|回复: 12

[新闻] COVID (GPU, core22 0.0.5) projects 13400-13401 to FAH

[复制链接]
发表于 2020-4-24 07:31:04 | 显示全部楼层 |阅读模式
本帖最后由 金鹏 于 2020-4-27 21:46 编辑

关注0.05新内核的计算效率
1070TI和1070都不能跑,新内核总是崩溃

COVID (GPU, core22 0.0.5) projects 13400-13401 to FAH
[size=1em]by JohnChodera » Sat Apr 25, 2020 8:56 am
[size=1.3em]We've just released two new projects---13400 and 13401---that validate new features of the new core22 release 0.0.5 that we will use for prioritization of compounds for COVID-19 experimental collaborators to make and test!

Project descriptions: https://stats.foldingathome.org/project?p=13400

We've restricted these projects to linux only because we're testing out some new custom integrators that currently seem to perform poorly on win. We're working on improving that for the next batch!

Project 13400 : core22 0.0.5 : linux only [due to inefficiencies in win]
Stats Credit = 205000
timeout = 1.5
deadline 2.0

Project 13401 : core22 0.0.5 : linux only [due to inefficiencies in win]
Stats Credit = 65392
timeout = 0.8
deadline 1.0



JohnChoderaPande Group Member Posts: 145Joined: Sat Feb 23, 2013 6:59 am

Re: COVID (GPU, core22 0.0.5) projects 13400-13401 to FAH
by JohnChodera » Mon Apr 27, 2020 2:14 pm
[size=1.3em]I've done some analysis of the higher failure rates:

Out of 1551 returned WUs:
A. 411 contain ERROR:exception: There is no registered Platform called "OpenCL"
B. 151 contain Following exception occured: Particle coordinate is nan
C. 8 contain ERROR:exception: There is no registered Platform called "CPU"

We're investigating A and C, which shouldn't happen if the client and core use the same criteria for determining eligibility for core22 projects.
I'm also trying to reproduce the failures in B, which I haven't seen on our local GPU cluster full of GTX 1080, GTX 1080Ti, and RTX 2080s.

For now, we've collected a ton of useful data to examine, so I've set 13400/13401 to collect-only.
Thanks for your help, everyone!

~ john Chodera // MSKCC



回复

使用道具 举报

发表于 2020-4-24 09:10:05 | 显示全部楼层
基础分这么高?那WU得有多大啊,下不来下不来
回复

使用道具 举报

发表于 2020-4-24 09:34:04 | 显示全部楼层
明日菜鸡 发表于 2020-4-24 09:10
基础分这么高?那WU得有多大啊,下不来下不来

3MB多,包不大。就是PPD坑爹,2080ti才40多万的PPD。
回复

使用道具 举报

发表于 2020-4-24 10:00:38 | 显示全部楼层
昨晚2060接了一个,Linux下崩了,只有20多万 TIM截图20200424095915.jpg
回复

使用道具 举报

发表于 2020-4-24 15:25:44 | 显示全部楼层
Keyco 发表于 2020-4-24 09:34
3MB多,包不大。就是PPD坑爹,2080ti才40多万的PPD。

这也太坑了吧
回复

使用道具 举报

发表于 2020-4-24 18:55:40 | 显示全部楼层

貌似跑了没多久就没有了,估计被撤了吧。
回复

使用道具 举报

发表于 2020-4-27 10:19:50 | 显示全部楼层
Keyco 发表于 2020-4-24 18:55
貌似跑了没多久就没有了,估计被撤了吧。

今天又接了一个,有调整得分了,2060只有100万出头,相对正常包120万左右(甜包140万+)仍然很坑:
TIM截图20200427101628.jpg

建议加advanced参数避坑
回复

使用道具 举报

发表于 2020-4-27 11:11:12 | 显示全部楼层
Lynt 发表于 2020-4-27 10:19
今天又接了一个,有调整得分了,2060只有100万出头,相对正常包120万左右(甜包140万+)仍然很坑:

我四张卡同时跑这个包,PPD分别是270万,393万,429万,434万。270万是那个最近一直超频爆包的GPU1,看了一下,GPU核心使用率才81%,PCIE带宽占用才8%,温度也低。其他3张卡的带宽占用已经是22%和23%了。感觉卡缩肛了。
回复

使用道具 举报

发表于 2020-4-27 15:13:59 | 显示全部楼层
Keyco 发表于 2020-4-27 11:11
我四张卡同时跑这个包,PPD分别是270万,393万,429万,434万。270万是那个最近一直超频爆包的GPU1,看了 ...

也许上次超太猛降频有影响,后来没有重启过的话再重启试试
回复

使用道具 举报

发表于 2020-5-4 12:25:56 | 显示全部楼层
这个系列已经出到了13403,GPU功耗和PPD都明显偏低,特别是13402只有其他COVID19任务的50%多
PS:1070跑13403暂未发现问题
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-4-23 18:11

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表