本文转载自公众号“生物世界”
撰文 王聪
2024 年 10 月 9 日,谷歌 DeepMind 的 Demis Hassabis、John Jumpe 因对蛋白质结构的预测,与蛋白质设计先驱 David Baker 分享了 2024 年诺贝尔化学奖。
当地时间 11 月 11 日,DeepMind 宣布,其最新版 AI 蛋白质结构预测工具 AlphaFold3 正式开源,现在,科学家们可以下载其底层代码,并将其应用于非商业领域。
半年前,DeepMind 团队在 Nature 发表论文,描述了AlphaFold3,但并未随论文公布其底层代码和模型训练权重,这一做法引起了科学家们的批评。
AI 能够准确预测蛋白质结构真正广为人知,始于 2021 年 DeepMind 推出的 AlphaFold2,其能够根据氨基酸序列来准确预测蛋白质的三维结构。AlphaFold2 的出现,引发了蛋白质结构及其相互作用建模领域的一场革命,为蛋白质建模和设计应用提供了广泛的可能。
2024年5月9日,Demis Hassabis、John Jumper 等人在 Nature 发表了题为:Accurate structure prediction of biomolecular interactions with AlphaFold 3 的研究论文,推出了 AlphaFold2 的全面升级版——AlphaFold3。
AlphaFold3 是一个强大的结构预测统一框架,涵盖了前所未有的广度和精确度,能够高准确性预测蛋白质与各种生物分子相互作用的结构。这一最新模型能够预测含有蛋白质数据库内几乎所有分子类型的复合物的结构,包括配体(小分子)、蛋白质、核酸(DNA 和 RNA)如何聚集在一起并相互作用,以及预测翻译后修饰和离子对这些分子系统的结构影响,从而帮助我们在原子水平上精确地观察生物分子系统的结构。
这种用计算机解析蛋白质与其他分子复杂相互作用的能力,有助于为疾病通路、基因组学、治疗靶点、蛋白质工程及合成生物学等领域带来新见解。更重要的是,AlphaFold3 为药物研发开辟了令人兴奋的可能性,有望颠覆当前的药物研发模式。
与 AlphaFold2 相比,AlphaFold3 最大的进步在于——不仅能预测单个蛋白质的结构,还能预测蛋白质与几乎任何生命分子的相互作用。
AlphaFold3预测蛋白质与DNA相互作用的结构
然而,DeepMind 并没有再像 AlphaFold2 那样直接发布其底层代码,而是通过一个网络服务器提供对 AlphaFold3 的访问权限,这限制了科学家们使用 AlphaFold3 做出预测的数量和类型,更重要的是,AlphaFold3 的服务器阻止了科学家们使用 AlphaFold3 预测蛋白质与潜在药物的相互作用。
DeepMind 希望 AlphaFold3 能够帮助科学家们重新认识生物世界、重新思考药物发现。而同时,DeepMind 又成立了一家名为 Isomorphic Labs 的子公司,利用 AlphaFold3 在药物开发和设计方面的潜力来开发治疗人类最致命疾病的新疗法。
因此,DeepMind 一开始只提供 AlphaFold3 的访问权限,而不公布底层代码和模型权重,是为了在促进科学研究与保护自身的商业野心之间取得平衡。
这一做法招致了科学家们的批评,DeepMind 迅速做出回应,表示将在半年内推出 AlphaFold3 的开源版本。
现在,DeepMind 决定公布 AlphaFold3 的底层代码,任何人都可以下载 AlphaFold3 的代码,意味着科学家可以畅通无阻地使用 AlphaFold3 进行各种预测。但目前只有学术机构(而非商业机构)的科学家才能根据要求获得模型训练权重(指在训练过程中,模型通过学习数据集的特征而不断调整的权重参数)。
DeepMind 之所以决定开源 AlphaFold3,除了来自科学界的批评之声,还可能源于竞争压力。
在 AlphaFold3 发布以来的几个月里,已经有几家公司根据原始论文中的伪代码(Pseudocode)推出了受 AlphaFold3 启发的开源蛋白质结构预测模型,其中包括来自中国的科技巨头百度和字节跳动,以及来自美国的初创公司 Chai Discovery。这些预测模型都没有被授权用于药物发现等商业应用。
而一家名为 Ligo Biosciences 的公司则推出了一款无需限制的 AlphaFold3 版本,但其目前还不具备 AlphaFold3 的全部功能,例如无法建模除蛋白质以外的药物和分子。
此外,美国哥伦比亚大学的 Mohammed AlQuraishi 教授团队则在开发没有各种限制的 AlphaFold3 版本,他表示,希望在今年年底推出一个完全开源模型——OpenFold3。这将使制药公司能够使用专有数据(例如与不同药物结合的蛋白质结构)重新训练他们自己的模型版本,从而有可能提高预测性能。
AlphaFold2 的开源,引发了科学家们大量创新。
例如,今年 8 月,蛋白质工程师 Alex Naka 利用他的笔记本电脑和大约 80 个基于云计算的 AI 处理器,设计了几十种蛋白质,这些蛋白质旨在靶向抑制肿瘤中发生突变的受体——EGFR(表皮生长因子受体),他选出了其中最有前景的 10 种设计,参加了一项新发起的蛋白质设计竞赛,并登上了排行榜榜首。
今年 10 月,维也纳大学的研究人员在 Cell 发表论文,利用 DeepMind 团队推出了蛋白质-蛋白质复合物的结构和相互作用预测模型 AlphaFold-Multimer,做出了一项重磅发现——确定了在精子和卵子结合中发挥关键的“媒人”作用的三种蛋白质——TMEM81、IZUMO1 和 SPACA6,没有这三种蛋白质,从鱼类到哺乳动物的有性繁殖可能会陷入死胡同。
具体来说,该研究发现,TMEM81 是在鱼类和小鼠中必需的雄性生育因子,并发现它与 IZUMO1 和 SPACA6 相互作用。这三种蛋白组成的蛋白质复合物在受精过程中,分别与哺乳动物卵子上的 JUNO 蛋白或鱼类卵子上的 Bouncer 蛋白结合,从而连接精子和卵子膜。
2024 年诺贝尔化学奖得主、AlphaFold 团队负责人 John Jumper 表示,期待 AlphaFold3 在开源后,会同样带来惊喜。