生物大模型新里程碑!囊括DNA、RNA 和蛋白质序列,AI破解生命通用「语言」

导读:基础模型将成为越来越重要的科学工具。

基础模型将成为越来越重要的科学工具。

今日,由ArcInstitute、斯坦福大学和TogetherAI研究人员宣布开发了一款名为Evo基础生物学模型,概括了生物学的基本语言——DNA、RNA和蛋白质。

研发团队称,Evo能够执行从分子到全基因组规模的预测任务和生成设计。

它也是同类产品中第一个以单核苷酸分辨率在全基因组范围内预测和生成DNA序列的产品。

跨越整个中心法则

过去几年里,随着AlphaFold2的出现,生物学基础模型得到了长足的发展。

但是这些模型仍然有很大的局限性,一般集中在短上下文、特定任务和单模态功能中,例如蛋白质结构预测(AlphaFold、ESMFold)。

但实际上根据中心法则,DNA才是一切的起点。以DNA编码为基础,其他生物学语言也由此产生,包括RNA转录和蛋白质翻译等。

于是来自科学家提出了一个问题:有没有一个能有效学习基因组的基础模型,它不仅可以理解单个DNA、RNA和蛋白质成分,还可以理解它们如何相互作用以创建复杂的系统?

于是ArcInstitute(没错就是那个富豪砸5亿美元让老婆安心做科研的新型机构)、斯坦福大学和TogetherAI研究人员开发了一个名为Evo的生物学基础模型,概括了生物学的基本语言:DNA、RNA和蛋白质。

Evo拥有约70亿参数,能够执行从分子到全基因组规模(长度超过650k)的预测任务和生成设计。

为了训练Evo,研究人员编译了一个300B的训练数据集OpenGenome,其中包含来自原核生物的270万个公开可用的基因组,并在此以单核苷酸分辨率进行训练。


11.png


Evo模型架构,基于StripedHyena

由于Evo的基因组训练数据中不仅仅包含蛋白质,基因组中还包含ncRNA和调控DNA序列。


22.png


Evo模拟了生物学的基本模式

因此Evo是一种蛋白质语言模型,它也是一种RNA语言模型,甚至是一个DNA模型。

值得注意的是,Evo能够对蛋白质、ncRNA和调控DNA进行零样本功能预测,从而跨越中心法则的所有三种模式。

跨DNA、RNA和蛋白质模式的零样本函数预测



33.jpg


经过检验,Evo能够很好地学习蛋白质语言以执行零样本蛋白质功能预测,在蛋白质训练上甚至可以与最先进的蛋白质语言模型(如ESM或ProGen)竞争。

因此,与当前生物学生成模型专注于单任务不同,整合多种生物学编码的Evo可以执行多模式设计。

例如,团队用Evo生成世界上第一个人工智能生成的CRISPR-Cas系统。


CRISPR-Cas系统需要创建蛋白质和ncRNA(非编码RNA)的大型功能复合物,并且是现有生成模型无法实现的。

而Evo提供了一种通过直接从生成模型中采样序列来生成生物多样性的新方法,这是创建新型基因组编辑工具的令人兴奋的前沿。

在蛋白质设计和功能预测方面,在基因组规模方面的建模也将有促进作用。

毕竟蛋白质不能在真空中发挥作用,Evo展示了在“基因组背景”中推理蛋白质的有前途的能力!

未来,团队期待训练更大的模型,提高其生成能力,并将Evo预训练扩展到人类基因组。

通过增强这些模型所学到的生物复杂性,我们相信我们可以在对抗复杂疾病和改善人类健康方面取得重大进展。

目前,该研究成果预印本已经发布且项目开源。

(https://github.com/evo-design/evo)

生物学语言模型的持续加速

这一研究成果发出后,不少人表示这是一项令人兴奋的研究,看到生物学语言模型的持续加速。

在该模型中,很多下游任务可以在基因组规模上进行推理。

此前早有专家预计,而人们距离建立生物分子信息(从DNA到基因表达到蛋白质)的精确计算机模型只有几年的时间,这些模型可以与实验准确性相媲美,并可用于医学和药物发现。

也就是说,大语言模型最重要的长期机会将需要一种完全不同类型的语言:生物学语言。

去年,笔者写了一篇关于生命科学大模型的内容,总结了用于药物研发和生命科学的大模型。而如今,关于生命科学的基础模型正在不断进化。

研究人员和从业人员可以针对特定任务微调这些预先训练的模型,从而为各种下游应用提供高性能系统。分子生物学中已经开始出现一些基础模型。


66.png


前不久,法国初创公司Bioptimus获得3500万美元的种子轮融资。这家公司组建了一支由谷歌DeepMind等人工智能领导者组成的科学家团队。

Bioptimus认为,基础模型是生物学的未来。科学界开始探索生物学中的基础模型,并取得了非常有希望的早期成功,但基础模型在规模和复杂性上仍然有限。

因此Bioptimus旨在建立通用的“生物学基础模型”,可以融合基因组学、蛋白质序列、细胞结构、表观遗传状态、细胞图像、质谱、空间转录组学等多种数据类型。

正如DeepMind首席执行官DemisHassabis所说:“在最基本的层面上,我认为生物学可以被视为一种信息处理系统,尽管它是一个极其复杂和动态的系统。正如数学被证明是物理学的正确描述语言一样,生物学也可能成为人工智能应用的完美类型。”

由此我们可以合理的预期,未来生物医学的基础大模型将走向高速公路。


药智.png


责任编辑:白芨


声明:本文系药智网转载内容,图片、文字版权归原作者所有,转载目的在于传递更多信息,并不代表本平台观点。如涉及作品内容、版权和其它问题,请在本平台留言,我们将在第一时间处理。

热门评论
请先 登录 再做评论~
发布

Copyright © 2009-2024 药智网YAOZH.COM All Rights Reserved.   工信部备案号:渝ICP备10200070号-3

渝公网安备 50010802001068号

投诉热线: (023) 6262 8397

邮箱: tousu@yaozh.com

QQ: 236960938