诺奖得主David Baker:AI for Science的13片蓝海(上篇)

文 | AlphaEngineer,作者 | 费斌杰

随着过去2年AI的快速发展,大模型的C端应用层出不穷,深入人心。与之相比,AI for Science一直披着神秘的面纱。

最近AI业界的观点开始产生变化,Jason Wei明确指出AI for Science蕴藏着巨大的机遇,而其中最大的场景在于AlphaFold 2掀起的蛋白质革命。

图片

近日,2024年诺贝尔化学奖得主David Baker进行了一场题为《De Novo Protein Design》的精彩演讲,站在科研最前沿为我们揭开了谜底:AI for Science究竟有哪些应用场景,能带来哪些实际价值。

David Baker预测,在接下来的5-10年内我们将会看到各种全新的人工合成蛋白质在AI大模型的帮助下诞生,解决包括癌症、自体免疫疾病、阿兹海默症在内的医学难题,同时在生物电子、催化剂合成、太阳能采集等领域大展拳脚。

文章有点硬核,但内容含金量很高,建议耐心阅读,也可以收藏起来慢慢看。

图片

(1)Sequence <-> 3D Structure:蛋白质领域的双生难题

2024年的诺贝尔化学奖集中在两大领域:Computational Protein Design,Protein Structure Prediction,二者其实是一体两面的双生问题。

众所周知,肽链会折叠成复杂的三维结构,这种三维结构以某种方式编码在构成肽链的氨基酸序列中。也就是说,氨基酸的线性序列决定了蛋白质的三维结构。

因为这个重要发现,Christian Anfinsen在1972年被授予诺贝尔化学奖。

这意味着原则上我们可以根据氨基酸序列直接预测三维结构。反之亦然,给定一个具体的蛋白质三维结构,理论上我们可以反推出构成这个蛋白质的氨基酸序列。

这一正一反两个问题就是蛋白质研究的核心。

3D Structure -> Sequence,称为Computational Protein Design

Sequence -> 3D Sequence,称为Protein Structure Prediction

“蛋白质设计”这一挑战在2003年被David Baker攻克,他设计出了一种包含93个氨基酸的全新蛋白质,并且计算出氨基酸序列。随后他们在实验室合成了这种蛋白质,并证明了预测的正确性。

与此相对,根据氨基酸序列预测蛋白质的三维结构,是一个庞大的搜索问题,这点早在1960年就被Cyrus Leventhal指出。

几十年以来,这个领域的进展十分缓慢,但是Denis Hassabis以及John Jump在2020年通过训练神经网络模型成功解决了这个问题。

如今AlphaFold2能够准确的预测氨基酸序列之间的距离图,并进一步转化为三维结构,实现蛋白质结构的准确预测。

(2)蛋白质的诞生:自然进化 or AI合成

蛋白质是生命通过数十亿年逐渐进化而来的,它们就像微型机器人,在生命体中承担着各种各样的重要职能。

但随着近年来人均寿命不断提高,人类面临着包括癌症、神经退行性疾病、全球变暖等全新的挑战。

如果还是依靠大自然进化出全新的蛋白质来解决这些问题,恐怕要等上数亿年的时间。

但如果我们能够按需设计出蛋白质,便能在短短几年内取得突破性成果,这就是蛋白质设计的价值。

在蛋白质设计中,我们先构建出一个预计具有某种特定功能的蛋白质,随后计算出这个蛋白质对应的氨基酸序列。

由于这是个全新的蛋白质,大自然中不存在能够编码它的基因,人们需要制造一个合成基因,一个能够编码这个蛋白质的合成DNA片段。

随后将其放入细菌中,细菌充当了生产蛋白质的工厂,最后我们把蛋白质提取出来,测试它是否满足预期的功能需求。

图片

(3)潜在未被发掘的蛋白质数量是个天文数字

一个典型的蛋白质包含100多个氨基酸构成的序列,而氨基酸本身就有20种。这意味着潜在蛋白质的种类有至少20^100次方个,这是一个天文数字。

生命自然进化中诞生的蛋白质,只是其中非常非常微小的一部分。下图中灰色的区域表示潜在的蛋白质空间,红色的区域是大自然中存在的蛋白质种类。

图片

由于生命进化是渐进的,大自然中存在的蛋白质之间往往存在较高的相关性,比如我们人类体内的蛋白质和其他哺乳动物中的蛋白质就高度相似,所以图中的红点呈现聚集性的特征。

因此当科学家想要设计一种新蛋白质时,传统方法是先去大自然中看看,有没有性状相似的蛋白质,在它基础上做微创新,这种做法称为“生物勘探”(Bio Prospecting)。

但这种做法有很多问题。首先大自然中存在的蛋白质种类有限,能实现的功能也有限,当我们想要实现一些特殊功能时,可能没有近似的自然蛋白质可供勘探。与此同时,大自然中存在的蛋白质结构非常复杂,在一个复杂系统上进行微创新可不容易,就像在几百万行的软件代码中debug一样。

(4)RF Diffusion:像生成图片一样生成蛋白质

近年来人们开始使用RF Diffusion方法来进行蛋白质设计,这种算法其实是受到了图像生成算法的启发。

在Diffusion算法中,人们先往图片里添加不同的噪声,然后训练一个神经网络来去除噪声还原图片。

一旦这个神经网络能够完美的去除噪声,它就可以从完全随机的噪声像素点开始,逐步去除噪声,生成一副全新的图像。

图片

RF Diffusion算法的原理与之高度相似。首先我们从PDB中提取海量蛋白质结构数据,往里面注入越来越多的噪声,然后训练一个神经网络来去除蛋白质结构数据中的噪声。

训练完成后,我们可以从完全随机的氨基酸配置开始,逐步去除噪声,生成一个全新的蛋白质结构。

正如在生成图片的时候,我们可以通过Prompt、Lora等方法来限制想要生成图片的内容。在生成蛋白质的时候,我们也可以加上限制条件,来产生具备某些功能性状的蛋白质。

比如下图展示的是在给定胰岛素受体的前提下,合成能够与之结合的蛋白质。在训练过程中,神经网络已经学会蛋白质之间的形状互补特征,因此能够合成出完美契合靶点的蛋白质。目前科学家已经设计出能够与200多种靶点结合的蛋白质。

图片

接下来我们来探讨蛋白质设计的应用价值,共计13个场景,分别对应医药、电子科技、可持续发展这三大领域。

(4)蛋白质 × 新药研发:蛇毒疫苗

蛇毒目前依然是一个重要的医学问题,尤其在发展中国家,因为蛇毒能够直接干扰基础生化反应。

蛇毒疫苗必须有着足够稳定的化学性质,并且足够便宜,因为它需要在那些没有冷链运输的国家使用。

左边图中蓝色的部分是AI设计出的蛋白质,它能够和蛇毒完美结合,把它注射到小鼠体内后,蛇毒被完全缓解,死亡率从100%降低到0%。

图片

(5)蛋白质 × 新药研发:自体免疫疾病

炎症是当前医疗领域的重点话题,它与自体免疫、癌症肿瘤都有较大关联。

炎症的核心是一种称为TNF受体的蛋白质,它也是目前市场上很多药物的靶点。

下图左侧是根据TNF受体生成出来的蛋白质,将其注入动物体内能够有效抑制炎症。

图片

当前用于治疗炎症的药物比如Enbrel(依那西普)有一定效果,但AI合成的蛋白质和受体结合得更加紧密,因此抗炎效果更好。

这意味着在不久的将来,人们能够设计出全新的药物治疗多种自体免疫疾病。

(6)蛋白质 × 新药研发:癌症肿瘤治疗

癌症治疗是蛋白质设计发光发热的重点领域。如今科学家可以设计全新的蛋白质来激活免疫系统,从而治疗癌症。

下图左侧红色的蛋白质将两个免疫受体结合在一起,从而引起免疫系统的强烈激活。

图片

在治疗胰腺癌的实验中,该方法相比传统治疗方法取得了更好的成果,肿瘤显著缩小。

(7)蛋白质 × 新药研发:流行病抗体

下图左侧灰色的部分是流感病毒表面蛋白,我们可以在它上面用AI生成一个结合蛋白质。

图片

在生成的时候,我们可以加上一个限制条件:我们希望这个蛋白质成为一种抗体,即一种特殊类型的蛋白质折叠。

上面右图中紫色部分是实验室测得的抗体蛋白质结构,灰色的部分是模型生成的蛋白质结构,二者几乎完全一致。

抗体是通过CDR Loop来识别目标的,通过神经网络合成出的抗体蛋白质完美模拟了CDR Loop,而且能够与流感病毒表面蛋白紧密结合,因此具备良好的抗体效果。

其实基于蛋白质设计的流行病抗体研发早已进入我们的日常生活。

早在2016年,Neil King开始尝试制作自组装的纳米颗粒,成功制作之后他意识到可以将一些病毒蛋白片段放在上面来生产疫苗。

基于这个想法,在Covid期间,它在这些纳米颗粒上放置了Covid表面蛋白受体,他发现这能引发非常强烈的免疫反应。

基于这项研究,SKYCovione诞生了,它是一种临床获批的药物。在未来的几年内,会有越来越多类似的新药诞生。

图片

(8)蛋白质 × 新药研发:阿兹海默症

另一个越来越重要的医学问题是神经退行性疾病,如阿兹海默症,它与长淀粉样纤维(long amyloid fibrils)的形成有关。

长淀粉样纤维的形成过程涉及多种蛋白质,包括Amyloid β以及Tau蛋白,它们之间会互相结合从而形成长淀粉样纤维。

我们可以设计出一种全新的蛋白质,与这些蛋白质的无序部分相结合,这样就可以阻止淀粉样蛋白的形成,从而避免阿兹海默症的发生。

图片

以上我们对AI for Science在新药研发上的潜在应用价值进行了梳理。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App