马剑鹏：“如果没有今年的化学奖，可能就没有物理学奖”

世界科学

2024-10-19 07:30发布于上海上海市科学学研究所官方账号

蛋白质结构预测的历史回顾

点击上方蓝字世界科学，再点右上角三颗痣设为星标，从此你的世界多点科学~

蛋白质结构预测的历史回顾

蛋白设计也好，蛋白质结构预测也好，它归根到底跟一个问题有关系，就是叫蛋白质折叠。

我先来简单解释一下什么叫蛋白质折叠。

我们知道，蛋白质首先是有空间结构的，而且有很多蛋白的空间结构是唯一的。蛋白质的氨基酸序列，是由遗传密码来决定的。遗传密码是一维的，所以它这里有个问题，就是如何由一维的蛋白质序列记住这个三维的结构，这就是所谓的蛋白质折叠问题。

那么，为什么这个问题那么重要？有人说这个问题是太阳底下最难的一个科学问题之一，也是20世纪末生物学里面所谓的一个“皇冠上的珍珠”。谁能解决这个问题，就肯定能获得诺贝尔奖，所以很多人都在为之努力。

这里有个关键部分，组成蛋白质的氨基酸主要有20种，氨基酸残基是线性连接的。大家可以从科普的角度上想象，它是一个氨基酸的链，就像一串珠子，一串念佛珠。如果这个珠子一共有20种不同的颜色，所谓的20种不同氨基酸的系列，把这串珠子往水里一放，它每次都会很快折叠成一样的三维结构。

问题是，如果这个链的折叠过程是一个穷举的过程，要把这条链从展开的构型折叠成最后一个三维唯一的结构，这需要的时间可能会比宇宙的寿命还长。但事实上，蛋白质链在细胞里面被合成的一瞬间就折叠起来了，折叠的速度远远比1秒钟要快。

这就来了一个问题，它怎么折的？它没有“脑子”，但蛋白折叠会非常快。这便出现了一个悖论，到底是怎么折叠起来的？这就是著名的蛋白质折叠问题和著名的利文索尔悖论（Levinthal's paradox）。

从20世纪中叶到现在，无数的前辈一直在孜孜不倦地研究这个问题，包括我们研究院的荣誉院长、2013年诺贝尔化学奖得主迈克尔·莱维特（Michael Levitt）教授等人。

随着时间的推移，这个问题慢慢地就分化成了两个问题：一个是蛋白质为什么会这样，或者它是怎么折叠的；另一个问题相对比较实用一点，即蛋白质结构预测问题。

关于第一个问题到现在还没有完全回答好，而第二个问题就是给你一个蛋白质的序列，提供最后的折叠结构就行——只关心终点，不关心路径。

关于路径这个事情是个基础科学问题，也是个物理学问题，很多人还在搞这个东西。

但第二个问题，随着时间的推移，一开始做物理的人更起劲地在回答，由于实用性的结构预测是非常困难的，所以几十年来有人孜孜不倦地在做，进步不是很大，但是有那么些人在做，包括2024年化学奖得主贝克（David Baker），他这么多年一直在这个行当里面，是一个领军人物，做得比较好，但是他在很长时间内预测精度也只有40%。

这个精度是指一个非常著名的国际比赛——关于蛋白质结构预测关键评估（CASP）的比赛。我们团队也参加这个比赛，做了很多努力。莱维特50年前开设了这么一个行当，就是因为他一直是做计算的，他企图用计算机来预测这个问题，但精度一塌糊涂。由于这个问题非常重要，所以大家一直在做，但我说的精度一塌糊涂，就是说当年用计算机来预测出来的蛋白结构，就算达到40%的精度，也不足以让生物学家或者做实验的工作者觉得这是有用的。

然而，2018年，出了个Alphafold。这个Alphafold第一次把这个精度从40%提高到60%，已经让人很震惊了。再过了两年，到CASP14的时候（2020年），它一下子达到了88%，88%这个数字很重要，因为实验的测定精度也只有90%。大家觉得这个问题几乎解决了，全世界都为之震惊。

这里要强调一点，像莱维特，包括我，就做这个行当的，大家孜孜不倦地在做，但我们都清楚，一路走来，这个问题靠计算机预测是不可能在我们有生之年得到解决的。但没想到Alphafold 1、Alphafold 2一下就到了80%多，现在又有Alphafold 3了。

这个就是历史，非常简单的AI预测蛋白质结构的发展历史。

AI变革蛋白结构预测、蛋白设计

现在来讲讲这个Alphafold是怎么突然间两步就几乎做成了蛋白质结构预测，也就是AI框架。在Alphafold 1出来以前，包括贝克都是在用计算机模拟的。

绝大部分人都不是用AI在做这件事，因为AI在这方面的展示结果并不好，很多是用物理学的方法，尤其是贝克。

贝克以前不是用AI，我也不是，迈克尔也不是，但就是因为深度学习方法的介入，这个精度有了突飞猛进的进步。

那么，这就要说到AI技术，这是两条不同的路径。

2024年诺贝尔物理学奖给了AI领域，而化学奖则给了在蛋白质预测上有突出贡献的AI技术。在不久以前，大家都记得AI曾经打败过国际象棋顶尖棋手，当时大家觉得不得了，国际象棋已经被AI打败了，但是后来什么事情都没实质性改变，因为你要打败国际象棋，拿个计算机就可以穷举。而计算机肯定比“你”想得快，它把所有的路都走完了，把你打败也就不奇怪了。

DeepMind公司的这帮人，尤其是2024年诺贝尔奖的第二个得主哈萨比斯，他是一个计算机工作者，他不仅挖掘出了一个科学问题，还找了个太阳底下最难的科学问题，即蛋白质结构预测问题。

这个问题不是个新问题，它早就存在了，贝克包括我们一直在做。他把这个问题朝前推了一大步，于是就有了Alphafold 1和Alphafold 2。

这下全世界整个变过来了，科学家也开始注意，原来AI这么厉害。这就是为什么现在有一个非常热门的词，叫AI for Science。

以前从来没听说过，AI for Science里面，AI不是什么新词，AI存在很多年了，Science更是有悠久的历史。为什么现在才想起来叫AI for Science？原来这两个东西关联性不是太大，就是说AI本身是一个算法，或者是个工程技术，传统的做AI的人都是做视觉、人脸识别、无人机操控、自动驾驶之类工程问题上的应用，它的难度跟蛋白质折叠是根本没法比的。蛋白质的确是非常非常难。

那么，居然在这么难的问题上朝前跨了一大步。现在它直接促成AI for Science的出现，而且现在是无处不AI。原因很简单，就是全世界无论是做Science的人，还是从事其他领域的人，都注意到深度学习这个东西，它居然把这么难的一个科学问题往前推这么一大步，那稍微简单点的科学问题就更容易了，这就广泛应用开了。

2024年物理学奖和化学奖的相互成就

2024年诺贝尔化学奖，其实分两拨人。第一个就是贝克，后来是哈萨比斯和江珀，哈萨比斯和江珀是一个团队的，他们就是做Alphafold的那两个人。贝克跟Alphafold理论上没有关系，这不是他发展的，但他后来包括现在也在用。那为什么得这个奖？

所谓蛋白质结构预测，无非就是蛋白质结构建模，只不过是这个模型不是用实验数据来检测的，是用计算机来建的。有了这个能力以后，这个行当就可以大致分为两大问题：一个就是大家孜孜不倦追求的蛋白质折叠问题，我给你一个序列，你把它对应的结构给我弄准，这就是折叠问题，也是Alphafold最大的贡献之一，它可以把蛋白折叠弄得比别的工具好得多得多。贝克也是致力于解决这个科学问题，Alphafold 2那两个人也是在这个时候做出巨大的贡献。

诺奖委员会专门点了“蛋白设计”。蛋白设计和蛋白质折叠两个问题的关联度是极大的，但也不完全是一回事。这两个东西的本质要求是必须得有一个蛋白质序列，把它的结构查一查。但是以前，我们连自然界已知的蛋白质序列也未必搞得清楚，何来谈设计？

纯粹的折叠，就是把一个已知的序列的结构弄准了就行了。但是“蛋白质设计”是指你要设计一个自然界不存在的蛋白，至少序列是经过修改的，所以设计更难——你不会折叠，你设计什么？但是会折叠不等于说一定能设计。

世界上研究蛋白质折叠的团队是非常多的，贝克当然是领军人物，后来他设计的工作被Alphafold给取代了。但是贝克在Alphafold设计出来以后，他也踉跄了几步，因为他的折叠精度一下子被Alphafold给碾压了。但是他又很快崛起了，他最近几年主要致力于蛋白质设计。所以诺奖委员会要强调蛋白设计这个事。

我一直认为，蛋白质的折叠是个基础科学问题，但蛋白质设计是一个艺术，就是你到底设计什么，选项是非常多的。那么这个时候，不得不强调一下，为什么把诺奖颁给贝克。

诺奖委员会说贝克主要以设计为主(其实他也是从做蛋白质折叠开始的)，在Alphafold以前，他在折叠方面是做得最好的。但是蛋白质设计方向，他在全世界几乎就是一个望尘莫及的存在，很多团队都企图做设计，但是做不过贝克。

而研究蛋白质折叠还是有很多人的，而且还有几个人不见得比贝克做得差，甚至做得更早。但是蛋白质设计方面，怎么也做不过他。这里面当然有很多的原因，但是我认为有个很主要的原因，就是贝克的团队除了很有钱，可以招到很多优秀的人才以外，他擅长做实验。贝克本人是做实验出身的，他后来改行做计算蛋白结构预测，这就充分说明了在蛋白质建模，尤其在蛋白质设计这个行当里面，不仅要有预测（设计也是先有预测），还要用实验去验证，就是设计出来的东西很难继续用计算来判别“设计的是对还是错”，以及判断设计的合理性。虽然有一部分可以通过计算实现，但不可能100%的准，最后还是要通过实验来验证。

当然，做设计的人也可以去找一个实验团队跟你合作，但是合作一般比较难。贝克组的强项就在于此，他自己的团队就有很强大的实验验证能力，所以他的蛋白质设计一下子就“冒”出来了，这就是关键。

所以诺奖这3个人里面，贝克拿走一半奖金，就因为这个贡献。如果这个奖是给蛋白质结构预测的话，不应该光给贝克，肯定还有别的人。但是要强调设计的话，那他确实独树一帜。

另外两位——Alphafold发明人——获奖，那是因为他们把蛋白质结构预测的精度给猛推了一把。

Alphafold主要是基于深度学习这个方法，DeepMind公司做出来的，是很了不起的，它的成功带动了一系列的应用。但我必须要强调一下，Alphafold到今天为止，它对AI这个领域的贡献或者它产生的影响力，其实远远大于对蛋白质结构研究本身的影响。

Alphafold，包括现在Alphafold 3，虽然蛋白质结构预测的功能已经很强大，但蛋白质建模这个问题并没有被解决。Alphafold的伟大之处在于，不仅把这个问题往前推进了一大步（它没有完全解决问题），还向全世界展示：你看，我在这么难的问题上也能往前爬一大步，那其他问题就更容易了。这促使整个AI被全世界彻底接受，而且每个人都在用AI。

这也是为什么2024年的物理学奖给了AI。应该说，如果没有化学奖这几个人的成功（虽然化学奖在物理奖后面揭晓），2024年的物理奖是不会给AI的。

那未来AI应该做什么？其中有一个使命，就是两端——数据驱动和逻辑驱动——能不能统一起来。这也是AI界的一个前沿问题。

Alphafold预测蛋白结构的短板

AlphaFold对AI行业的冲击要比对蛋白质结构预测方向的要大。怎么来理解？

首先一点，蛋白质有主链和侧链。无论AlphaFold 2还是AlphaFold 3，它预测结果精度很高，但业内有一个非常聚焦的问题，预测的主要误差就在侧链上。

我这么说，是有数据的。

我并不是否认AlphaFold的贡献，它的贡献无穷大，但是它并没有解决这个问题，我觉得就因为它的侧链不够准。

而侧链非常关键，如果从药物设计的角度来讲，药物设计、药物分子，大部分都是跟侧链相互作用的。而纯依靠AlphaFold来预测结构，绝大部分情况下是不够的。

但是这不等于说AI在新药创新上就无能为力了，相反它很有用。从序列开始，它把结构搭起来（虽然不是100%准确），那么小分子筛选，或者肿瘤诊断、制药，它几乎可以用在每个环节。你不能把AI赋能新药创新，就等价为是AlphaFold预测结构本身。

计算生物学未来的发展潜力

为什么“深度学习”在蛋白质结构问题上取得了巨大成功？原因很简单，因为蛋白质结构已经有几十年的发展史，很多代的科学家做实验积累了很多的数据。有个数据库叫PDB（protein database bank）提供了很多蛋白质结构的准确信息，才有可能让AI去学一把。所以这个蛋白质结构数据就建得比较好，这是数据驱动（data driven）的科学问题。

但世界上还有别的东西，它就没有那么多现成的结构信息让AI去学。这个时候怎么办？AI还能起作用吗？

这个时候，AI就做不到了。你看Alphafold 2，不要说其他的生物材料，哪怕是蛋白质和核酸相互作用，或者蛋白质和小分子作用，它也做不好。

这个方向朝前迈了不小的一步，但没有解决这个问题，不过这个方向是非常有潜力的。所以，未来我相信，凡是生物学，哪怕化学，都会受到它巨大的影响。

获得d诺奖对行业而言意味着什么?