划重点
012024年诺贝尔化学奖授予David Baker一半,表彰其在计算蛋白质设计方面的贡献,另一半由德米斯·哈萨比斯和约翰·江珀共同获得,以表彰他们在蛋白质结构预测方面的成就。
02哈萨比斯和江珀利用人工智能预测了几乎所有已知蛋白质的结构,而贝克则突破性地创造出全新的蛋白质,掌握了生命的核心组成。
03由于此,AlphaFold2软件在2020年CASP14竞赛中表现卓越,预测准确率几乎与X射线晶体学不相上下。
04此外,蛋白质设计领域取得了重大突破,如贝克实验室设计的Top7蛋白质,其结构与预期几乎完全一致。
05人工智能和计算技术在蛋白质科学领域的应用将带来深远影响,造福全人类。
以上内容由腾讯混元大模型生成,仅供参考
今年的诺奖似乎绕不开 AI 了,接上一篇 2024 诺贝尔物理学奖:物理与机器学习的交汇,AI 继续发力中。
The Nobel Prize in Chemistry 2024[1]:瑞典皇家科学院决定将 2024 年诺贝尔化学奖授予戴维·贝克(David Baker)一半,表彰其“计算蛋白质设计”方面的贡献,另一半由德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper)共同获得,以表彰他们在“蛋白质结构预测”方面的成就。
简介
David Baker
戴维·贝克是美国著名的生物化学家和计算生物学家,专注于蛋白质结构预测和设计领域。他开发了 Rosetta 算法,用于从头预测蛋白质结构,并将其扩展为蛋白质设计工具,显著推动了计算生物学的发展。他的研究团队设计了 Top7,这是第一个具有全新折叠的人工蛋白质。贝克还是美国国家科学院院士,华盛顿大学蛋白质设计研究所所长,已发表 600 多篇科学论文,并共同创立了十多家生物技术公司。他的贡献不仅解决了蛋白质结构预测的长期难题,还推动了疾病研究、药物开发和酶工程的创新。2024 年,贝克因其在计算蛋白质设计方面的工作,获得了诺贝尔化学奖的一半。
Demis Hassabis
德米斯·哈萨比斯是英国计算机科学家和人工智能研究员,DeepMind 和 Isomorphic Labs 的联合创始人兼首席执行官,也是英国政府的 AI 顾问。他因在 AlphaFold 项目中的贡献获得了突破奖、盖尔德纳国际奖和拉斯克奖,并与约翰·江珀共同获得 2024 年诺贝尔化学奖的一半(个人 1/4)。哈萨比斯在国际象棋领域早年展现天赋,少年时期已达到大师级水平,并在剑桥大学完成学业。他还因对人工智能的贡献于 2024 年被授予爵士头衔。
John M. Jumper
约翰·江珀是 DeepMind Technologies 的美国主管,因开发 AlphaFold 模型以高精度预测蛋白质结构而备受关注。他与德米斯·哈萨比斯共同获得了 2024 年诺贝尔化学奖的一半份额(个人 1/4)。江珀拥有芝加哥大学的博士学位,并在剑桥大学获得理论凝聚态物理学硕士学位,致力于利用机器学习模拟蛋白质折叠和动力学。他的团队计划发布一亿个蛋白质结构,显著推动生物科学的发展。
主要成就
化学家们长期以来一直渴望全面理解并掌控生命的关键构成元素——蛋白质。如今,这一渴望已变得触手可及。Demis Hassabis 和 John M. Jumper 成功利用人工智能预测了几乎所有已知蛋白质的结构;David Baker 则突破性地创造出全新的蛋白质,掌握了生命的核心组成。他们的发现蕴含巨大潜力,必将深刻影响科学研究和人类生活。
但正如你所看到的,2024 年诺贝尔化学奖表彰了两项不同的发现,它们紧密相连。要了解今年的获奖者克服了哪些挑战,我们必须回顾现代生物化学的起源。
揭秘蛋白质
生命的丰富化学反应得以实现,归功于蛋白质这一杰出的化学工具。蛋白质通常由 20 种氨基酸构成,这些氨基酸可以以无数方式组合。细胞利用储存在 DNA 中的信息作为蓝图,将氨基酸链接成长链。
随后,氨基酸链会扭曲并折叠成独特的三维结构,这一过程赋予了蛋白质其功能。有些蛋白质成为构建肌肉、角或羽毛的材料,另一些则成为激素或抗体。许多蛋白质形成酶,以惊人的精确度推动生命的化学反应。位于细胞表面的蛋白质也非常重要,充当细胞与其环境之间的通信通道。
生命的化学构建模块——这 20 种氨基酸的潜力几乎无法被高估。2024 年诺贝尔化学奖正是关于在全新的层次上理解和掌握它们。奖项的一半授予了 Demis Hassabis 和 John Jumper,他们利用人工智能成功解决了化学家们苦斗了 50 多年的问题:根据氨基酸序列预测蛋白质的三维结构。这使他们能够预测几乎所有 2 亿种已知蛋白质的结构。另一半奖项授予了 David Baker。他开发了计算方法,实现了许多人认为不可能的事情:创造以前不存在的、在许多情况下具有全新功能的蛋白质。
📌 氨基酸氨基酸是含有氨基(-NH2)和羧基(-COOH)官能团的有机化合物。尽管自然界中存在超过 500 种氨基酸,但最为重要的是构成蛋白质的 22 种蛋白原性氨基酸,它们也是生命遗传密码中的关键组成部分。
氨基酸可根据核心结构中官能团的位置进行分类(如 α-、β-、γ- 氨基酸等);也可以依据极性、电离性及侧链基团类型(如脂肪族、非环状、芳香族、极性等)进行划分。在蛋白质中,氨基酸残基是仅次于水的人体肌肉及其他组织的第二大成分。除了作为蛋白质的基本组成单位,氨基酸还参与了神经递质的运输和生物合成等多种生理过程。因此,氨基酸在地球上生命的起源和演化中扮演了关键角色。
通过蛋白质水解,可得到 20 种常见氨基酸:甘氨酸(Glycine)、丙氨酸(Alanine)、缬氨酸(Valine)、亮氨酸(Leucine)、异亮氨酸(Isoleucine)、苯丙氨酸(Phenylalanine)、色氨酸(Tryptophan)、酪氨酸(Tyrosine)、天冬氨酸(Aspartate)、组氨酸(Histidine)、天冬酰胺(Asparagine)、谷氨酸(Glutamate)、赖氨酸(Lysine)、谷氨酰胺(Glutamine)、甲硫氨酸(Methionine)、精氨酸(Arginine)、丝氨酸(Serine)、苏氨酸(Threonine)、半胱氨酸(Cysteine)和脯氨酸(Proline)。
这 20 种氨基酸是生命体中蛋白质的主要组成单元。此外,第 21 种硒半胱氨酸(Selenocysteine)和第 22 种吡咯赖氨酸(Pyrrolysine)分别由终止密码子 UGA 和 UAG 编码,虽罕见,但也在少数蛋白质中出现。
蛋白质结构探索史
第一张模糊图像
自 19 世纪以来,化学家们就知道蛋白质对生命过程的重要性,但直到 20 世纪 50 年代,化学工具才足够精确,研究人员开始更深入地探索蛋白质。剑桥大学的 John Kendrew 和 Max Perutz 取得了突破性发现,在 50 年代末,他们成功地使用一种称为 X 射线晶体学的方法,展示了蛋白质的第一个三维模型。为表彰这一发现,他们在 1962 年被授予诺贝尔化学奖。
📌 扩展阅读“我认为我们将对生命物质的理解推进到了原子层面,这极大地加深了我们对生命本质的认识。”—— Max Perutz
由氨基酸组成的长链被卷曲成特定的三维结构,赋予每种蛋白质其独特的性质。要理解蛋白质的功能,既需要了解它们的物理结构,也需要掌握其化学结构。
受到研究蛋白质结构的启发,Max Perutz 在 MRC 分子生物系统结构研究所(现为 MRC 分子生物学实验室,The MRC Laboratory of Molecular Biology[2])开始研究血红蛋白,这是一种血液中的红色色素,主要功能是将氧气从肺部运输到组织。血红蛋白由四条链组成,在分子层面上是一个较大的蛋白质。其结构的确定耗时 25 年。John Kendrew 加入 Max 的研究团队,开始研究一种与血红蛋白相关但较小的蛋白质——肌红蛋白。肌红蛋白只有一条链,存在于鲸鱼和海豹等哺乳动物的肌肉中,在潜水时作为氧气储存器。1959 年,肌红蛋白成为首个被确定三维结构的蛋白质,仅几个月后,血红蛋白的结构也被揭示。
Perutz 和 Kendrew 共同发展了蛋白质晶体学技术,该技术利用蛋白质晶体对 X 射线的衍射作用来生成独特的图样,从中推断蛋白质的结构。如今,这项技术在全球广泛用于确定大分子的结构。确定蛋白质的结构和功能有助于我们理解导致疾病的蛋白质异常,如镰刀型贫血病,并为这些疾病的治疗提供帮助。MRC 分子生物学实验室现拥有多个蛋白质结构研究项目,利用依赖于复杂技术的各种手段。
📌 X 射线晶体学X 射线晶体学(X-ray crystallography[3])是一门通过 X 射线研究晶体中原子排列的学科,利用 X 射线衍射获取晶体的电子密度分布,从而推断原子位置和化学键的信息。由于许多物质可以形成晶体,这项技术广泛应用于研究盐类、金属、矿物、半导体等材料。起初,X 射线晶体学主要用于测量原子尺寸、化学键和物质结构,后来逐渐揭示了包括维生素、药物、蛋白质和 DNA 在内的生物分子结构,至今仍是研究物质结构的核心方法。
Anfinsen 折叠实验和 Levinthal 悖论
美国科学家 Christian Anfinsen 做出了另一个早期发现。他通过各种化学手段,使现有蛋白质展开然后再次折叠。令人感兴趣的是,蛋白质每次都呈现出完全相同的形状。1961 年,他得出结论:蛋白质的三维结构完全由其氨基酸序列决定。这一发现使他在 1972 年被授予诺贝尔化学奖。
然而,Anfinsen 的逻辑中存在一个悖论,1969 年由另一位美国科学家 Cyrus Levinthal 指出。他计算出,即使蛋白质仅由 100 个氨基酸组成,理论上蛋白质可以采取至少 1047 种不同的三维结构。如果氨基酸链是随机折叠的,找到正确的蛋白质结构所需的时间将超过宇宙的年龄。而在细胞中,这个过程只需几毫秒。那么,氨基酸链是如何迅速而准确地折叠的呢?
Anfinsen 的发现和 Levinthal 的悖论暗示了蛋白质折叠是一个预定的过程。而且,重要的是,所有关于蛋白质如何折叠的信息都必须存在于其氨基酸序列中。
预测蛋白质结构
这些发现带来了一个重要的认识:如果化学家知道蛋白质的氨基酸序列,他们应该能够预测蛋白质的三维结构。这一设想非常激动人心,因为它有可能取代繁琐的 X 射线晶体学技术,大幅缩短结构解析时间。此外,它还可以帮助研究那些无法通过 X 射线晶体学解析的蛋白质。
为了推动这一领域的发展,1994 年,研究人员发起了“蛋白质结构预测关键评估”(CASP[4]:Critical Assessment of protein Structure Prediction)的项目。这一项目逐渐演变为一场全球竞赛。每两年一次,组织者向参赛者提供一些新解析蛋白质的氨基酸序列,但不公开其结构,参赛者的任务是基于这些序列预测蛋白质的三维结构。
AlphaFold 崛起
AlphaFold[5] 是由 Alphabet 子公司 DeepMind 开发的人工智能(AI)程序,专门用于预测蛋白质结构。该程序设计为一个深度学习系统。
AlphaFold 软件经历了三个主要版本。使用 AlphaFold 1(2018 年)的研究团队在 2018 年 12 月的第 13 届蛋白质结构预测关键评估(CASP)竞赛中总排名第一。该程序特别擅长预测竞赛组织者评为最难的目标结构,尤其是那些没有现有相似序列模板的蛋白质。使用 AlphaFold2(2020 年)的团队在 2020 年 11 月的 CASP14 竞赛中再次获得第一名,并且其准确度远超其他团队。该团队在 CASP 的全球距离测试(GDT)中对约三分之二的蛋白质预测准确度超过 90 分。GDT 测试衡量计算程序预测的结构与实验确定的真实结构之间的相似度,100 分为完全匹配。
AlphaFold2 在 CASP14 的成果被称为“惊人”和“具有变革性”。一些研究人员指出,尽管 AlphaFold2 的预测对于三分之一的蛋白质而言准确度还不足够,并且它没有揭示蛋白质折叠的机制或规则,蛋白质折叠问题还不能算作完全解决。然而,技术上的成就获得了广泛认可。2021 年 7 月 15 日,AlphaFold2 的论文作为预发布在《自然》杂志上发表(Highly accurate protein structure prediction with AlphaFold[6]),同时发布了开源软件和一个可搜索的物种蛋白质组数据库。这篇论文迄今已被引用超过 2.7 万次。
AlphaFold 3 于 2024 年 5 月 8 日发布。它能够预测蛋白质与 DNA、RNA、各种配体和离子组成的复合物结构。
棋类大师的 AI 之路
让我们快速了解一下 Demis Hassabis 的背景:他四岁开始下国际象棋,13 岁时达到了大师级别(Elo 等级分达到了 2300)。在青少年时期,他开始了程序员和成功的游戏开发者的职业生涯。之后对人工智能产生了浓厚的兴趣,并涉足神经科学,取得了多项革命性的发现。他利用对大脑的了解来开发更好的用于人工智能的神经网络。
2010 年,他与 Shane Legg、Mustafa Suleyman 在伦敦共同创立了 DeepMind,这是一家为流行的棋盘游戏开发了先进 AI 模型的公司。该公司于 2014 年被谷歌收购。两年后,DeepMind 因其 AlphaGo[7] 程序击败了围棋世界冠军而声名鹊起,这在当时被认为是人工智能领域的重大突破。
然而,对 Hassabis 来说,围棋并不是最终目标,而是开发更好 AI 模型的手段。取得这一胜利后,他的团队准备好解决对人类更重要的问题。因此,在 2018 年,他报名参加了第十三届 CASP 竞赛。
AlphaFold 初亮相
在早期的 CASP 竞赛中,研究人员预测的蛋白质结构与真实结构的准确率最高只有 40%。Hassabis 团队使用他们的 AI 模型 AlphaFold,将这一准确率提升至接近 60%。虽然他们赢得了竞赛,并且这一突破性成果令许多人感到意外,但这仍然无法彻底解决问题。要真正取得成功,预测的准确率需要达到 90%,才能与真实结构相匹配。
John Jumper 突出贡献
John Jumper 对宇宙的强烈兴趣让他开始学习物理和数学。然而,在 2008 年,他进入一家利用超级计算机模拟蛋白质及其动态的公司工作时,意识到物理知识不仅可以揭示宇宙奥秘,还能用于解决医学问题。
带着对蛋白质的全新兴趣,Jumper 在 2011 年开始攻读理论物理学博士学位。由于大学的计算资源有限,他开始开发更简便且高效的方法来模拟蛋白质动态。不久,他也加入了生物化学的重大挑战之列。2017 年,刚完成博士学位的他听说 Google DeepMind 正在秘密研究蛋白质结构预测。他立即申请加入团队。凭借其在蛋白质模拟方面的创造性思维,迅速崭露头角,并在团队进展受阻时被提升为领导者之一。Jumper 与 Demis Hassabis 共同领导了 AlphaFold 的开发工作,彻底改革了这一 AI 模型。
新版 AlphaFold2 深受 Jumper 在蛋白质领域的专业知识影响。团队还引入了神经网络中的创新—— Transformers,这是近期 AI 领域突破背后的核心技术。Transformers 能够从海量数据中灵活发现模式,并有效地聚焦于实现特定目标所需的信息。
团队用全球蛋白质结构和氨基酸序列数据库中的庞大数据训练了 AlphaFold2。这一新 AI 架构在第十四届 CASP 竞赛中表现卓越。
2020 年,当 CASP 竞赛的组织者评估结果时,他们意识到,生物化学领域的 50 年难题终于被攻克。AlphaFold2 在大多数情况下的表现几乎与 X 射线晶体学不相上下,令人惊叹。2020 年 12 月 4 日,CASP 的创始人之一 John Moult 在总结竞赛时提出了一个振奋人心的问题:“接下来会发生什么?”
我们稍后会讨论这个问题。现在,让我们回到过去,聚焦 CASP 中的另一位重要参与者,揭示 2024 年诺贝尔化学奖的另一部分,它涉及从零开始设计新蛋白质的创新技术。
蛋白质设计
从哲学到蛋白质结构
当 David Baker 开始在哈佛大学学习时,他选择了哲学和社会科学。然而,在一次进化生物学课程中,他偶然发现了现已成为经典的教科书《细胞的分子生物学》(Molecular Biology of the Cell)的第一版。这使他改变了人生方向。他开始探索细胞生物学,最终对蛋白质结构着迷。
1993 年,当他开始在华盛顿大学西雅图分校担任研究组组长时,他接受了生物化学的伟大挑战。通过巧妙的实验,他开始探索蛋白质如何折叠。这些见解被他带到了 90 年代末,当时他开始开发可预测蛋白质结构的计算软件:Rosetta[8]。
📌 关于 Rosetta数十年来,Rosetta 一直处于计算生物学的前沿,为蛋白质结构的建模、设计和分析提供了开创性的功能。其多样化的应用正在各个领域的研发中带来革命性突破。以下是其一些重要的应用领域:
从头设计蛋白质:Rosetta 使科学家能够从零设计蛋白质,创造出自然界中不存在的具有新功能的蛋白质。
酶设计:该软件可用于设计新酶或修改现有酶的特异性和效率,应用于工业过程、环境保护和新疗法的开发。
配体对接:Rosetta 能够预测小分子(如潜在药物)如何与蛋白质结合,这对药物发现和开发至关重要。
大分子复合物:除了单个蛋白质,Rosetta 还帮助理解蛋白质复合物的组装与结构,这对于大多数生物过程来说至关重要。
理解大分子相互作用:它提供了关于蛋白质如何相互作用以及与 DNA、RNA 和小分子相互作用的洞见,这对细胞生物学和疾病研究的各个方面都是基础。
抗体工程:该软件可用于设计具有更高效力和特异性的抗体,供治疗用途。
疫苗设计:Rosetta 被用于预测表位,并设计出可以引发免疫反应的疫苗候选物。
生物大分子结构预测:基于氨基酸序列,Rosetta 能预测蛋白质和其他大分子的三维结构,帮助理解其功能和相互作用。
生物分子材料设计:Rosetta 还能设计新型生物材料,应用于组织工程、生物催化和纳米技术等领域。
Rosetta 由 Rosetta Commons 开发,这是一个由全球 100 多家机构实验室组成的联盟。
从预测到设计
Baker 于 1998 年首次在 CASP 竞赛中使用 Rosetta,取得了优异的成绩。这一成功激发了一个新想法——团队可以反向使用该软件。与其将氨基酸序列输入 Rosetta 来预测蛋白质结构,他们可以输入一个期望的蛋白质结构,并得到相应的氨基酸序列建议,从而设计出全新的蛋白质。
蛋白质设计领域的兴起,使研究人员能够定制具有新功能的蛋白质。通常,研究人员调整现有的蛋白质,使其具备如分解有害物质或作为化工工具的功能。然而,自然界中蛋白质的种类是有限的。为了解决这一限制,Baker 的团队希望从零开始设计蛋白质。正如 Baker 所说:
“如果你想制造飞机,你不会从改造鸟类开始;相反,你应该理解空气动力学的基本原理,并基于这些原理制造飞行器。”
Top7 诞生
这个领域被称为 de novo 设计,即从头设计蛋白质。研究团队首先绘制出一个全新的蛋白质结构,然后使用 Rosetta 计算出能生成该结构的氨基酸序列。为此,Rosetta 在所有已知蛋白质结构的数据库中搜索,寻找与目标结构相似的短片段。随后,利用蛋白质能量景观的基本知识,Rosetta 对这些片段进行了优化,并提出了一个候选的氨基酸序列。
为了验证该软件的准确性,Baker 的团队将设计的氨基酸序列基因引入细菌中,使细菌生产出所需的蛋白质。他们随后使用 X 射线晶体学确定该蛋白质的三维结构。
结果表明,Rosetta 成功地构建了蛋白质。团队设计的蛋白质 Top7,其结构与预期几乎完全一致。
蛋白质设计新突破
对于蛋白质设计领域的研究人员来说,Top7 是一项突破性发现。此前的 de novo 设计只能模仿现有的蛋白质结构,而 Top7 的独特结构在自然界中并不存在。此外,Top7 由 93 个氨基酸组成,超越了此前通过 de novo 设计生成的所有蛋白质的规模。
Baker 于 2003 年发表了这一发现,标志着这一非凡进展的开端。自那时以来,Baker 实验室持续创造出一系列令人惊叹的蛋白质。他还公开了 Rosetta 的代码(Rosetta GitHub[9]),使得全球研究界能够继续开发该软件,探索更多新的应用领域。
AI 与蛋白质科学的未来
AlphaFold2 的全球影响
自 Demis Hassabis 和 John Jumper 证明 AlphaFold2 成功后,他们迅速计算出了所有人类蛋白质的结构,接着预测了约 2 亿种已知的地球生物蛋白质结构。这一成果使得谷歌 DeepMind 开放了 AlphaFold2 的代码,供全球研究人员使用。截至 2024 年 10 月,来自 190 个国家的 200 多万研究人员已使用 AlphaFold2,以前可能需要数年才能获得的蛋白质结构,现在只需几分钟。
尽管 AlphaFold2 并非完美,但它能够估计每个预测结构的准确性,帮助研究人员判断预测的可靠性。AlphaFold2 已在疾病研究、药物开发、酶工程等多个领域产生了重大影响。
Baker 实验室的持续创新
在 2020 年的 CASP 竞赛后,David Baker 意识到基于 Transformer 的 AI 模型的潜力,并将其整合进 Rosetta 中,推动了 de novo 蛋白质设计的进一步发展。近年来,Baker 实验室创造了许多令人难以置信的蛋白质创新,包括与流感病毒结合的新型蛋白质,具有潜力用于广谱流感疫苗的开发。此外,他们设计的酶能够催化特定化学反应,为绿色化学工业带来了全新的解决方案。
科技造福人类
蛋白质作为生命化学工具的多样性令人惊叹。如今,我们能够快速可视化这些分子机器的结构,帮助我们深入理解生命运作的机制,例如某些疾病的发生原因、抗生素耐药性的产生、或某些微生物分解塑料的能力。同时,创造具有全新功能的蛋白质为多个领域提供了巨大的潜力,例如纳米材料、定向药物、疫苗开发、微型传感器和绿色化工等。
结语
蛋白质科学正迈入全新时代。借助人工智能和计算技术,我们不仅能够精准预测蛋白质结构,还能设计出具备特定功能的全新蛋白质,这些突破将在医学、环境科学和材料科学等领域产生深远影响,造福全人类。
有人或许认为诺贝尔奖偏离了传统,将 2024 年的物理学和化学奖授予与 AI 相关的科学家,但事实恰恰相反。诺奖正顺应时代潮流,认可了 AI 在推动前沿科学发展的巨大贡献,显著加速了人类历史的进程。更展示了复合型人才的创新力量,这或许正是我们这个时代所亟需的。