斑马鱼跨膜蛋白81,图片来源 欧洲生物信息研究所
潘 展 | 编译
2020年11月末,DeepMind推出了具有变革意义的蛋白质结构预测工具AlphaFold2。莆一问世它便向世人展示了人工智能在推动科学进步方面的强大威力。
蛋白质与AlphaFold
蛋白质是大多数生理活动的承载者,它由长而独特的氨基酸链组成,精确折叠成三维结构。结构基本定义了蛋白质的功能,因此了解其结构对于药物发现和疾病理解至关重要。
如果蛋白质折叠错误,轻则失去功能,重则直接导致疾病产生,如阿尔茨海默病和帕金森病等疾病。然而数十年来,确定这些结构一直是一项艰巨的任务。
在2020年CASP 14蛋白质结构预测竞赛中,AlphaFold 2仅凭氨基酸序列就以惊人的准确度预测了蛋白质的结构,这一成就解决了一个生物学上50年重大挑战,被视为科学人工智能的真正诞生。
随后,DeepMind与欧洲生物信息研究所(EMBL-EBI)合作推出了AlphaFold 蛋白质结构数据库,并向全球免费开放,AlphaFold一举成为全球科学工具。
2023年DeepMind进一步推出AlphaFold3,该模型可以预测生命中所有分子的结构和相互作用——不仅是蛋白质,还有DNA、RNA和配体(构成大多数药物的小分子)。它还能生成整个分子复合物的关节三维结构,从而全面了解潜在药物分子如何与其目标蛋白结合,或蛋白质如何与遗传物质相互作用。
如今,AlphaFold蛋白质数据库包括了超过2.4亿个蛋白质结构的预测,实现了原本需要数亿年实验解决的问题。该数据库已被190多个国家的300多万名研究人员使用,其中包100多万低收入和中等收入国家的用户。超过30%的AlphaFold相关研究聚焦于更好地理解疾病,从而造福人类福祉。
加速科研进程
AlphaFold显著提升了科学家新发现的速度。一项其影响力对比试验显示,使用 AlphaFold的研究人员向蛋白质数据银行(PDB,一个实验性蛋白质结构模型数据库)提交的蛋白质结构数量,比不使用AlphaFold的基准组结构生物学研究人员多约50%。
此外,与使用人工智能、结构生物学及蛋白质结构预测领域其他前沿方法的研究人员相比,使用 AlphaFold2 的研究人员向 PDB 提交结构的比例也更高。
蛋白质提交量激增 图片来源:《自然》杂志
根据《自然》杂志的介绍,维也纳分子病理学研究所的生物化学家安德里亚・保利(Andrea Pauli)的经历很具代表性。在一项研究中,他借助AlphaFold找到了一条原本可能永远无法找到的研究路径。他在斑马鱼(Danio rerio)卵子研究中发现了一种名为Bouncer的蛋白质,这种蛋白质对受精过程至关重要,但他始终难以弄清Bouncer蛋白是如何识别精子细胞的。恰在此时,AlphaFold2横空出世,根据其预测显示,一种名为Tmem81的蛋白质能稳定另外两种精子蛋白形成的复合物,并为Bouncer蛋白创造一个结合位点。后续实验证实了该工具的预测结果。“AlphaFold 加速了发现进程,” 保利说,“我们的每个项目都会用到它。”
保利在其论文中引用了《自然》杂志介绍AlphaFold2的文章,该篇文章的引用量目前已近4万。此外,超过200000篇论文将AlphaFold 2的元素纳入其方法论。这些数据足以证明AlphaFold对科学界的影响。
介绍AlphaFol的论文被引用量,图片来源 《自然》杂志
截止目前,AlphaFold服务器已经帮助全球数千名研究人员实现了超过800万次结构和相互作用的预测。它正在赋能全球非商业研究人员利用这项技术,加速他们构建和测试新假设的能力。
数字生物学的新纪元
AlphaFold2 能迅速产生影响,部分原因在于它的易获取性,开源让研究人员很快就能自行大规模运行这款软件,并运用于多个领域。比如牛津大学团队利用它预测疟疾关键蛋白 Pfs48/45 的全长结构,为新型疫苗设计提供参考;马耳他大学科学家通过它模拟罕见基因变异的蛋白质结构,助力早发性家族性骨质疏松症的遗传因素识别等。
同时,它还运用于追溯蛋白质演化、优化塑料降解酶等方面的研究。总之,AlphaFold已成为全球科研人员依赖的基础工具。
AlphaFold助力抗癌新药研究 图片来源:欧洲生物信息研究所
其中,又以对药物设计与筛选方面的影响最为突出。AlphaFold 3提供了前所未有的细胞视角,将推动药物发现过程的转变,并开启“数字生物学”时代。
早在2021年,DeepMind就拆分成立了Isomorphic Labs,其核心目标是借助人工智能革新药物研发模式,其开发的药物设计引擎覆盖药物发现全生命周期,能完成小分子设计、虚拟筛选、结构优化等可工程化的研发流程,可将药物发现阶段的成本削减 30 - 40%,周期缩短一年以上。目前,Isomorphic Labs已与多家大型药企达成合作,合同金额已达数十亿美元。
引领AI for Science潮流
AlphaFold 的成功,启发了一系列相关模型的诞生,为人工智能在科学研究领域的应用开辟了广阔的道路。
AlphaGenome是一个全新的DNA序列模型,为解读人类基因非编码序列的功能提供了新的视角和工具。AlphaMissense则专注于预测人类基因组中错义突变的致病性。它们可以利用人工智能评估导致疾病的基因突变。
AlphaProteo模型可以设计出新型高强度蛋白质结合剂,靶向包括与癌症和糖尿病相关的多种分子。这些模型正在加深我们对复杂疾病的理解,最终推动新疗法的发展。
更重要的是,科学家正将AI赋能各学科,从核聚变、地球科学到整体科学发现,追求下一个类似AlphaFold的突破。AlphaFold是这股潮流的引领者,必将在人类科学事业中留下浓重的一笔。