找回密码
 新注册用户
搜索
查看: 3673|回复: 8

[新闻] DeepMind数据库现在包括了科学界已知的几乎所有蛋白质

[复制链接]
发表于 2022-7-29 21:59:59 | 显示全部楼层 |阅读模式
本帖最后由 罗睿 于 2022-7-29 22:01 编辑

https://www.cnbeta.com/articles/tech/1298417.htm


去年,Alphabet的DeepMind发布了一个开源数据库,其中包含数十万种蛋白质的3D结构,包括人体中所有的2万种已知蛋白质。现在,这个AlphaFold蛋白质结构数据库已经扩展到2亿个,包括科学上已知的几乎所有蛋白质。

蛋白质是细胞的重要组成成分,执行着对生命至关重要的数不清的生物过程。它们由氨基酸链组成,折叠成复杂的三维形状,这决定了它们的功能。绘制蛋白质的结构图对于了解它们的作用、它们如何工作以及事情如何出错非常重要,这是研究从新药和治疗方法到改善作物和动物保护等一切问题的关键。
但要根据组成蛋白质的氨基酸计算出蛋白质的确切结构,仍然是很棘手的。弄清这一点通常需要大量的计算能力和人类的工作时间,这种情况已被称为"蛋白质折叠问题"。因此,几十年来,进展一直相对缓慢。
也就是说,直到Alphabet将其强大的DeepMind人工智能放在这个问题上。该系统最初在10万个已知的蛋白质结构上进行训练,发展出预测其他数百万种蛋白质结构的能力,每一种蛋白质只需几分钟或几秒钟,而不是几个月或几年就能确定。

2021年7月,第一个AlphaFold蛋白质结构数据库被发布给公众,供科学家们研究。它最初包含超过35万个蛋白质结构,包括大约98.5%的人类蛋白质,以及那些在果蝇、小鼠、酵母和大肠杆菌中发现的蛋白质。后来,它被扩展到来自1万种动物、植物、细菌、真菌和其他生物的大约一百万个蛋白质结构。在此后的一年里,来自世界各地的50多万名科学家访问了该数据库,以帮助他们的研究。
现在,DeepMind已经发布了对该数据库的大规模更新,它现在包括来自一百万个物种的约2.14亿个结构。这几乎涵盖了目前科学界已知的所有蛋白质,为疾病治疗、疫苗、可持续发展、抗生素抗性、甚至塑料污染的研究提供了巨大的助力。
斯克里普斯研究转化研究所主任Eric Topol说:“AlphaFold已经加速并促成了大规模的发现,包括破解了核孔复合体的结构。而随着新增加的结构照亮了几乎整个蛋白质世界,我们可以期待每天有更多的生物之谜被解开。”
整个蛋白质结构数据库由超过25TB的数据组成,可以从谷歌云公共数据集下载。


回复

使用道具 举报

发表于 2022-7-30 10:41:47 | 显示全部楼层
“直到Alphabet将其强大的DeepMind人工智能放在这个问题上。该系统最初在10万个已知的蛋白质结构上进行训练,发展出预测其他数百万种蛋白质结构的能力,每一种蛋白质只需几分钟或几秒钟,而不是几个月或几年就能确定。”


是不是说FAH的项目可以停止下线了?

回复

使用道具 举报

发表于 2022-7-30 19:36:51 | 显示全部楼层
baibaipangpang 发表于 2022-7-30 10:41
“直到Alphabet将其强大的DeepMind人工智能放在这个问题上。该系统最初在10万个已知的蛋白质结构上进行训练 ...

回复

使用道具 举报

发表于 2022-7-31 04:27:47 | 显示全部楼层
AlphaFold本质上还是猜,但是猜得比较准;FAH本质上是算,基本上除了直接X光衍射之外,最准确的可能就是它了,而且还可以用来研究动力学,也就是蛋白质分子之间具体是怎么相互作用的。

只能说两者各有长处吧……
回复

使用道具 举报

发表于 2022-8-2 19:00:54 | 显示全部楼层
参与过相关研究的人表示基于传统分子动力学计算来预测蛋白质结构现在就是完全被深度学习碾压的情况,尤其是现在可以做 binding 了之后。FAH 我不清楚,但是我和 IPD 那个组的人聊过 (就是 Rosseta@home 那个),他们自己现在基本上也是基于 AlphaFold 2 或者他们自的深度学习模型 Rosseta Fold 做结构预测。 之前他们靠 Rosseta@home 的数据做设计,计算出来的差不多几千个好的结构中有一两个是靠谱的,所以只能靠 high throughput 实验去填补计算精度。现在深度学习的结构预测是越来越好用了,如果基于无标签数据上的预训练模型来训练甚至可以做到在 inference 的时候不需要 MSA 与 template,这样 denovo 的蛋白质结构也可以精准预测了。
回复

使用道具 举报

发表于 2022-8-3 20:39:38 | 显示全部楼层
那这么说跑FAH已经意义不大了,alphafold这些本来也不怎么吃计算资源,一张3090就能训练,现在就剩EAH能跑了吗突然就不想再追配置了
回复

使用道具 举报

发表于 2022-8-5 16:51:06 | 显示全部楼层
牵牛星 发表于 2022-8-3 04:39
那这么说跑FAH已经意义不大了,alphafold这些本来也不怎么吃计算资源,一张3090就能训练,现在就剩EAH能跑 ...

一张 3090 就能训练那是想多了,现在大模型随随便便都要用到几百张卡。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-4-20 18:38

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表