原文作者:Ewen Callaway
今年的奖项表彰了改变生物学发展,并且有潜力为药物开发带来新一轮革命的计算工具。
David Baker, Demis Hassabis和John Jumper(从左至右)因开发可被用于预测和设计蛋白质结构的计算工具被授予诺贝尔化学奖。来源: BBVA Foundation
历史上首次(可能不是最后一次),由人工智能(AI)实现的科学突破获得了诺贝尔奖的认可。2024年诺贝尔化学奖授予了伦敦谷歌DeepMind的John Jumper和Demis Hassabis,以表彰他们开发出了一个颠覆性的可预测蛋白质结构的AI工具AlphaFold;此外,西雅图的华盛顿大学的David Baker也因其在计算蛋白质设计领域的贡献而获奖。该领域在近年因为AI技术而兴旺发展。
“我希望当我们回顾AlphaFold时,它将成为第一个证明点,展现出AI加速科学发现的不可思议的能力。”Hassabis在10月9日的DeepMind新闻发布会上说。“这一刻感觉太不真实了。”
AlphaFold问世短短几年已经带来了革命性的变化。此工具让研究人员可以一键轻松解析蛋白质结构(不是所有时候,但大多数情况下极为精确),并且让十年前难以想象的实验变得可能。“这是一场重大革命。”伦敦大学学院的计算生物学家Christine Orengo说道。她的实验室利用AlphaFold预测的结构揭示了新的蛋白质。
诺贝尔委员会主席、瑞典隆德大学的纳米科学研究员Heiner Linke在颁奖典礼上说:“长期以来,我们一直梦想能够通过氨基酸序列来预测蛋白质的三维结构……在数十年里,这一直被认为是不可能的。”而今年的获奖者“破解了这个密码”。三位获奖者将分享1100万瑞典克朗(约合100万美元)的奖金。
获奖的人工智能
DeepMind于2018年首次推出AlphaFold,当时该工具赢得了一项两年一度的蛋白质结构预测竞赛,“蛋白质结构预测技术的关键测试(CASP)”。但真正令生命科学界震撼的是2020年底发布的第二代深度学习神经网络AlphaFold2。在CASP竞赛中,许多AlphaFold2的预测非常准确,与实验确定的蛋白质结构几乎难以区分。
DeepMind的联合创始人兼首席执行官Hassabis与AlphaFold团队负责人Jumper领导了AlphaFold2的开发。为了预测蛋白质结构,这个神经网络融合了数十万种结构和数百万种相关蛋白质序列库的数据,这些数据包含着与它们形状相关的信息。
AlphaFold的成功很大程度上得益于蛋白质数据库(Protein Data Bank)。这是一个开放资源库,包含超过20万种蛋白质结构,通过X射线晶体学和冷冻电子显微镜等方法确定。Jumper在DeepMind的新闻发布会上表示:“每当我们用多年的努力成果来训练[AlphaFold]时,都令人感到谦卑。每一个数据点都是某人多年的心血。”
2021年,DeepMind将AlphaFold2的底层代码与训练模型所需的数据一并免费公开。此外,DeepMind与位于英国欣克斯顿的欧洲分子生物学实验室(EMBL)下属欧洲生物信息学研究所合作创建了AlphaFold数据库。这个数据库现在包含了基因数据库中每个生物体的几乎所有蛋白质结构,总计约2.14亿个预测结构。今年,该公司发布了第三代AlphaFold,能够模拟能与蛋白质相互作用的其他分子,如药物。
Jumper、Hassabis及其团队引发的革命尚处于早期阶段,而AlphaFold对科学的全面影响可能还需要数年才能显现。然而这个工具已在帮助科学家们获得新的见解。
一个开创性的团队利用该工具及实验数据绘制了细胞核孔复合体,这是将分子运输进出细胞核的最大细胞结构。去年,有两个团队深入研究了整个AlphaFold数据库并揭示了蛋白质世界的隐秘之地,识别了新的蛋白质家族和折叠结构,并发现了生命机器中的意外联系。
许多研究人员希望AlphaFold及受其启发的其他AI工具将引领医学领域的变革,尽管目前尚不清楚AlphaFold是否会简化开发安全药物这一昂贵且步骤繁多的过程。正在新疫苗开发阶段的科学家们发现AlphaFold极为有用,有时候甚至是颠覆性的。然而对于疫苗领域来说,AlphaFold还只是补充了实验研究结果和其他映射和调整病毒蛋白结构的方法。
德国的欧洲分子生物学实验室(EMBL)结构模型专家Jan Kosinski认为,预测的结构对于大多数研究人员来说只是研究的起点,而非终点。他补充道:“起初,人们担心它会取代结构生物学,人们会失业什么的。实际上结果恰恰相反。”
自2016年起与DeepMind合作开发AlphaFold初代的伦敦大学学院生物信息学家David Jones表示,这一工具的最大影响之一是改变了生物学家的思维方式:“计算机能够生成有用假设,这些假设能在实验室中测试。”
创造新蛋白质
在DeepMind开始致力于研究AlphaFold的二十多年前,计算生物物理学家David Baker和他的同事们开发了一个名为Rosetta的软件工具,它可以利用物理原理来模拟蛋白质结构。该工具通过比较多个现有蛋白质结构和序列的小片段,识别出能折叠成特定形状的蛋白质序列。
最初,Rosetta被用于预测蛋白质结构,并于AlphaFold崛起之前在许多CASP竞赛中名列前茅。但Baker很快意识到这一模型也可以反过来用,设计出全新的蛋白质。
这一工具早期在设计新型蛋白质方面取得了成功,包括设计出新型酶,能够与其他分子紧密结合的蛋白质,以及类似病毒的自组装蛋白纳米颗粒(其中一种成为了一例已获批准的COVID-19疫苗的基础)。
在AlphaFold2宣布(但尚未发布)的时候,Baker及其团队(包括现就职于韩国首尔大学的计算化学家Minkyung Baek)开始研究该软件,将其中一些技术应用于过去AI驱动版本的Rosetta。由此产生的第一个RoseTTAFold网络表现几乎能与AlphaFold2相媲美。自2021年以来,这两个网络不断被其开发者和其他科学家改进以应对新的挑战,例如预测多种不同相互作用蛋白质复合体的结构。
近年来,Baker的团队特别专注于将机器学习应用于实验室的核心使命:创造自然界中从未见过的新型蛋白质。Baker团队最近开发的一种工具结合了RoseTTAFold与图像生成扩散神经网络,将研究人员设计蛋白质的能力提升了一大步。
进展迅速
在Baker的实验室完成博士学位的麻省理工学院(MIT)进化生物学家Sergey Ovchinnikov说,这些工具极大地加速了蛋白质设计的发展,并使其更具普及性。过去,Rosetta需要在数百个处理器上运行数周才能设计出一种蛋白质,而现在的新型AI工具仅需几秒即可完成这一任务。Ovchinnikov 说:“现在世界上的每个人都可以进行蛋白质设计了。”
“我深受该领域其他研究者及合作者的启发。”Baker在诺贝尔奖颁奖发布会上通过电话说道:“我站在巨人的肩膀上。”
韩国首尔国立大学的计算生物学家Martin Steinegger将AlphaFold、RoseTTAFold以及其他生物AI工具的影响比作阿波罗登月计划,认为它们展示了工程可以实现的成就。他说:“这对结构预测和结构生物学领域来说是一个类似的时刻,让我们看到了究竟什么是可能的。”
对于诺贝尔委员会的决定,几乎没有人感到意外。Jones表示对于Baker来说:“鉴于他在这个领域完成的大量工作,大多数人认为这是迟早的事情。”Jumper在新闻发布会上表示,他知道自己和Hassabis在许多人的候选名单上,因此宣布结果的前一晚难以入睡。
对于Jumper来说,AlphaFold提供的预测结构为科学发现创造了新的机遇。数百万科学家已经使用了这些工具,他希望其中哪位不久后也会接到从瑞典打来的电话。他说:“要是诺贝尔奖涉及了用AlphaFold做的工作,那会是让我几乎同样激动的时刻。”
原文以Chemistry Nobel goes to developers of AlphaFold AI that predicts protein structures标题发表在2024年10月9日《自然》的新闻版块上
© nature
Doi:10.1038/d41586-024-03214-7