面对蛋白质难题,这次有了空前强大的新工具——透视2024年诺贝尔化学奖

全文2419字,阅读约需7分钟,帮我划重点

划重点

012024年诺贝尔化学奖授予戴维·贝克、德米斯·哈萨比斯和约翰·M·江珀,以表彰他们在蛋白质结构预测方面的贡献。

02戴维·贝克领导团队开发了用于预测和设计蛋白质功能和结构的RoseTTAFold算法,扩展为Rosetta@Home项目。

03德米斯·哈萨比斯和约翰·江珀开发的AlphaFold系列人工智能程序,可以预测蛋白质与DNA、RNA、配体和离子形成的复合物的结构。

04由于此,人工智能在蛋白质结构预测领域的突破性进展,为相关研究提供了强大的助力。

05此次获奖可以看做是对当下人工智能领域高速发展的一个最好的注解,专门解决某一类特殊问题的特用型人工智能才是正确的发展方向。

以上内容由腾讯混元大模型生成,仅供参考

2024年10月9日,瑞典皇家科学院宣布了2024年诺贝尔化学奖的结果。今年的诺贝尔化学奖一半授予戴维·贝克(David Baker),以表彰他在“计算蛋白质设计”方面的贡献,另一半则被授予了德米斯·哈萨比斯(Demis Hassabis)和约翰·M·江珀(John M. Jumper),以表彰他们在“蛋白质结构预测”方面的贡献。

图片

戴维•贝克(左)、德米斯•哈萨比斯(中)和约翰•M•江珀(右)。(图片来源:诺贝尔官方网站)

“算计”蛋白质

戴维·贝克1962年10月6日出生于美国西雅图的一个犹太家庭。他的父亲马歇尔·贝克是一名物理学家,母亲玛西娅·贝克则是一名地球物理学家。1989年,戴维·贝克在加州大学伯克利分校获得生物化学博士学位。2009年,戴维当选美国艺术与科学院院士。

戴维·贝克最为人所知的工作就是领导团队从零开始开发了用于预测和设计蛋白质功能和结构的RoseTTAFold算法。该算法后来被扩展为名为Rosetta@Home的,用于蛋白质设计的分布式计算项目。截止到2020年9月,全球共有超过四万五千台计算机通过互联网志愿为这一项目提供算力。

因为在相关领域的杰出贡献,戴维·贝克在2024年被《时代》杂志列入首届健康领域最具影响力的100人名单。

相较于戴维·贝克,作为2024年诺贝尔化学奖另外一半奖项的得主,德米斯·哈萨比斯和约翰·江珀则要显得更为具有“知名度”。作为DeepMind的首席执行官和高级科学家,他们领导的团队开发了用于预测蛋白质结构的AlphaFold系列人工智能程序。今年5月发布的AlphaFold 3就是该系列的最新版本。这一全新版本的人工智能程序可以用于预测蛋白质与 DNA、RNA、各种配体和离子形成的复合物的结构,而且正确率远高于之前的版本。

蛋白质折叠难题

贝克、哈萨比斯和江珀三人的获奖,是继物理学奖之后,2024年诺贝尔奖再一次将科学奖项颁给了机器学习与人工智能方面的工作。但是,物理学奖得主霍普菲尔德与辛顿的工作,更多的是体现在让物理学的工具和方法“走出去”,为当今强大的机器学习奠定了基础。而贝克、哈萨比斯和江珀的工作,则是让机器学习和人工智能的工具“走进来”,为化学和生命科学相关领域的发展,提供了强大的助力。

实际上,关于蛋白质结构的研究,一直是化学和生命科学中的一个非常重要的研究领域。

蛋白质不仅仅是组成我们身体的基本元件之一,也是细胞进行各种生命活动的必要材料和载具。在我们日常饮食的肉蛋奶等食物当中,就富含大量的蛋白质。

虽然蛋白质如此常见,但是想要搞清楚蛋白质的结构却异常困难。

早在1935年,科学家们就已经找到了构成蛋白质的所有20种主要的氨基酸。也就是说,所有和生物生命活动相关的蛋白质,都是由这些氨基酸“积木”相互“组合”“连接”而形成的。但是,在氨基酸构成蛋白质的过程中,会先相互结合组成多肽链,然后多肽链在三维空间中发生折叠,最终变成稳定的蛋白质。最终形成的蛋白质的性质,不仅取决于合成肽链的氨基酸的类型和数量,在肽链折叠过程中所产生的三维结构,也会对蛋白质的性质产生决定性影响。由于在折叠过程中,多肽链中具有非常大量的自由度,这就使得生成的蛋白质具有天文数量的可能构象。

在1969年的论文中,分子生物学家利文索尔提到,一个由100个氨基酸分子组成的肽链具有99个肽键,这些肽键在折叠形成蛋白质的过程中,会产生3的198次方,即3乘以10的94次方种可能的蛋白质构象。因此,如果蛋白质通过连续采样所有可能的构象而获得其正确折叠的构型,则需要比宇宙的年龄更长的时间以达到其正确的天然构象。这就是所谓的“利文索尔佯谬”。

正因为此,搞清楚氨基酸序列在折叠过程中如何确定蛋白质结构,是一件极具挑战性,也极具价值的难题。这也就是所谓的“蛋白质折叠问题”。

在历史上,关于这一难题的突破性进展,几乎无一例外都是非常重要的科研成果。

1955年,英国生物化学家弗雷德里克·桑格将胰岛素的氨基酸序列完整地定序出来,同时证明蛋白质具有明确构造。这一工作使得桑格获得了1958年的诺贝尔化学奖。在1980年,桑格又和美国生物化学家保罗·伯格以及沃特·吉尔伯特一起,因为“对核酸中DNA碱基序列的确定方法”再次获得诺贝尔化学奖。这一工作成为了日后人类基因组计划等研究得以展开的关键之一。

这也使得桑格成为继玛莉·居里、莱纳斯·鲍林,以及约翰·巴丁之后,第四位两次获得诺贝尔奖的科学家。同时桑格也是第一位两次获得诺贝尔化学奖的科学家。

从桑格开始,到今年之前,诺贝尔化学奖共有12次颁发给了蛋白质结构相关的研究工作。这些工作既有“球蛋白三维结构的解析”这样对重要蛋白质的解析,也有“晶体电子显微镜发展”这样技术层面的发展和突破。

而随着磁共振波谱和冷冻电镜等新技术的发明和完善,科学家们对于蛋白质结构的解析也在逐渐加快。根据相关数据库,截止到现在,一共有十余万种蛋白质的结构被科学家们所解析探明。但是这一数量,和自然界中目前已知的十几亿种蛋白质结构相比起来,仍然是沧海一粟。

新工具

现在,2024年,诺贝尔奖第13次将化学奖颁给了蛋白质结构相关的研究工作。这次,科学家们有了人工智能这个强有力的工具。

借由最先进的扩散模型(Diffusion Model),AlphaFold 3不仅可以预测对蛋白质之间的相互作用,还可以预测蛋白质与DNA、RNA链、配体和离子等小分子的相互作用,以及这些小分子彼此之间的相互作用,并且准确率达到了76%。

这就使得相关的研究者们,可以用比之前快得多的速度,去解析各种蛋白质的结构,进而搞清楚各种蛋白质的功能与特性。更进一步地,通过计算蛋白质设计,科学家们可以去人为地构建具有某种特性的蛋白质分子。例如在RoseTTAFold的研究中,研究人员利用ProteinMPNN和RoseTTAFold方法,设计出了自然界中原本不存在的蛋白质。在未来,这些全新的蛋白质,会有可能被用作疾病治疗的抗原抗体,或者生物化学反应所需的生物酶。

人工智能在蛋白质结构预测领域的这次突破性进展,既得益于最近几年人工智能的高速发展以及算力的巨大提升,也来自于之前相关科学家们对蛋白质结构研究的积累。在此基础上,贝克、哈萨比斯和江珀的这次获奖,可以看做是对当下人工智能领域高速发展的一个最好的注解。即:像AlphaFold系列这样,专门解决某一类特殊问题的,在科学研究领域真正发挥作用的特用型人工智能,也许才是人工智能真正正确的发展方向。

南方周末特约撰稿 左力

责编 朱力远