划重点
01AI技术在蛋白质科学领域取得突破性进展,如AlphaFold2预测蛋白质结构,推动疫苗和药物研发。
02AI赋能蛋白质基础研究,从预测到设计,提高预测精度和效率。
03除此之外,AI在疫苗研发和药物设计中的应用包括助力药物靶点确定、功能蛋白设计、药物再利用等。
04AI推动mRNA疫苗开发,如预测抗原识别与优化、mRNA序列设计与优化、快速响应病毒变异等。
05随着AI在蛋白质领域的产业生态发展,各国政府积极布局,出台政策鼓励AI与生物制药深度融合。
以上内容由腾讯混元大模型生成,仅供参考
当前,AI正重塑蛋白质科学范式,引领生命科学从实验探索迈向精准设计的新纪元。2024年,AlphaFold2因其在蛋白质结构预测方面的突破性贡献获得诺贝尔化学奖,mRNA疫苗也因其在新冠大流行中的关键作用荣获2023年诺贝尔生理学或医学奖。这两项荣誉凸显了AI在蛋白质科学和医药研发中的深远影响。本文将探讨AI如何赋能蛋白质基础研究、推动疫苗和药物研发,并加速蛋白质科学产业生态的发展,全面解析AI在这一领域的战略意义与变革性作用。
一、AI赋能蛋白质基础研究:从预测到设计
AlphaFold的成功标志着AI在生命科学领域迈出了历史性的一步,其背后的核心原理在于从大量蛋白质结构和序列数据学习规律,从而精准预测出蛋白质的三维结构,揭示其功能,提升对生命机制的理解。尤其是AlphaFold2开创性地采用了一种能同时整合多序列比对和特征信息的新架构,并结合注意力机制,不仅解决了蛋白质折叠问题,也显著提高了预测精度,成功预测出超过2亿个蛋白质结构。在此基础上,DeepMind推出了AlphaMissense模型,预测基因突变对蛋白质的影响,实现了从结构预测到功能评估的完整路径。图1显示,AlphaMissense的预测能力显著优于人类注释,尤其是在覆盖范围和准确性方面。
图1 DeepMind发布《A new golden age of discovery Seizing the AI for Science opportunity》,2024.11
根据不同的任务和功能,AI蛋白质模型可分为三类:结构预测模型、结构设计模型及交互预测模型。结构预测模型通过氨基酸序列预测蛋白质结构,理解其功能,主要服务于药物和疾病的基础研究。诺奖得主珍妮弗·道德纳 借助AlphaFold2预测了近7万个病毒蛋白质的3D结构,推动了病毒免疫逃逸机制和疗法的探索。结构设计模型多采用生成对抗网络(GAN)、Transformer等生成式模型,根据需求设计或优化蛋白质,主要面向蛋白质工程、药物开发、工业酶和抗体设计等场景。交互预测模型通过分析蛋白质相互作用、分子结构数据等,预测生物分子间的相互作用,支撑细胞活动、药物作用机制和基因表达等研究,因此多用于药物测试和生理功能模拟。具体区别如下表1所示。
表1 AI蛋白质模型分类
结构预测模型 | 结构设计模型 | 交互预测模型 | |
核心 问题 | 根据线性序列预测折叠后的三维结构。 | 新蛋白质的设计与优化。 | 预测蛋白质与蛋白质、小分子的互相作用。 |
目标 优化 | 提高预测精度 提高预测速度,尤其是长序列 | 实现特定功能。 提升可控性、稳定性。 | 提高预测精度。 蛋白质网络的整合预测。 识别潜在交互。 |
核心 技术 | 深度学习,如Transformer、卷积神经网络(CNN)。 多序列比对(MSA)信息 物理化学约束 | 生成式AI,如生成对抗网络(GAN)、变分自编码器(VAE)。 序列-结构映射 分子动力学模拟 | 扩散模型、深度学习,如卷积神经网络(CNN)、Transformer、循环神经网络RNN、图神经网络等。 |
数据 依赖 | 结构数据,如PDB。 | 结构数据。 功能数据。 模拟数据,如分子动力学模拟。 | 蛋白质相互作用数据 分子结构数据 实验验证数据。 |
应用 场景 | 基础研究,如蛋白质解析、靶点发现等。 | 工程应用,如设计抗体、酶催化剂。 | 药物发现、疾病机制解析、基因调控、细胞信号传导。 |
典型 应用 | AlphaFold、RoseTTAFold | ProGen、ProteinMPNN | DiffDock、GameFormer |
近两年,AI蛋白模型开始出现如下发展趋势和特点。一是深度学习的进步提升了蛋白质预测的精准度和效率。传统深度学习方法如卷积神经网络(CNNs)和循环神经网络(RNNs)等曾被广泛应用于蛋白质序列分析,而当前Transformer架构已成为主流技术,如AlphaFold2。同时,多模态学习整合了序列、结构和功能数据,进一步提升了蛋白质结构与功能多样性的识别能力。二是从静态向动态结构预测转变。许多生物过程如药物作用、酶催化反应都依赖于蛋白质的结构变化和动态交互,因此动态结构预测正成为解决蛋白质折叠、交互作用等瓶颈问题的关键。AlphaFold3通过优化模型架构和算法,能够预测蛋白质与配体等分子的相互作用;上交大 提出的几何深度生成模型DynamicBind,能从未结合的蛋白质结构中准确生成配体结合构象,实现蛋白质动态对接预测。三是生成模型与蛋白质逆设计成为研究热点。生成对抗网络等生成模型推动了蛋白质设计应用,尤其在疫苗开发、酶催化设计等方面。在此基础上,结合预测和设计的闭环模式,进一步提高了蛋白质工程的效率和效果。
二、AI变革蛋白质领域应用:疫苗研发与药物设计
AI在蛋白质基础研究中的发展经历了从早期探索到突破性应用的过程,极大地推动了生物医药领域的进展,特别是在药物发现和疫苗研发方面。
(一)AI助力药物研发
药物靶点的确定。药物靶点的确定是药物研发的关键步骤,AI技术显著提高了靶点发现的效率和精度。尽管近两年来存在对AlphaFold2到底能否直接促进发现配体的质疑,但近期美国一项研究证明了AlphaFold2在靶点确定、配体发现中的实际应用潜力。今年5月,洛克菲勒大学、北卡罗莱纳大学、哈佛大学、斯坦福大学 等利用AlphaFold2预测了两种新蛋白sigma-2和5-HT2A的结合位点,这两类蛋白是治疗阿尔茨海默病、精神分裂症等神经疾病的重要靶点。通过冷冻电镜和X射线晶体衍射的验证,AlphaFold2预测的配体结合位点与实验结果高度吻合,命中率高达54%(sigma-2)和26%(5-HT2A),与传统实验结构差距极小。
功能蛋白设计。AI基于大量蛋白质数据、物理化学原理和蛋白质折叠力学,模拟靶点与其他分子的相互作用,能够快速设计出抗体等具有特定功能的蛋白质。2024年4月,美国英矽智能 公开了全球首个进入Ⅱ期临床试验的AI药物INS018_055的研发全过程。这项工作从靶点发现到临床前候选药物提名仅用时18个月,远低于传统药物研发,展示了生成式AI驱动的药物发现管道的能力。这款药物用于治疗一种罕见病“特发性肺纤维化(Idiopathic Pulmonary Fibrosis,IPF)”。该病症具有高死亡率和病程不可逆的特点,治疗难度大,中位生存期仅2-3年,生存率低于许多癌症。英矽智能团队通过PandaOmics平台分析多组学数据,结合生物网络分析和文献数据筛选出TRAF2-和NCK-相互作用激酶(TNIK)作为抗纤维化靶点,并利用生成化学引擎Chemistry42从头生成具有目标功能的分子结构,再通过筛选迭代获得了候选分子INS018_055。该药物已完成Ⅰ期临床试验,并显示出良好的安全性和耐受性,以及理想的药代动力学特征。
药物再利用。AI通过分析临床数据和基因组学数据,可以识别已有药物对其他疾病的潜在疗效。药物再利用的过程,不仅能加速新适应症的发现,还能显著减少研发成本和时间。2024年3月,美国卫生高级研究计划局(ARPA-H) 与致力于药物再利用的非营利组织Every Cure签订为期三年、价值4830万美元的合同。该合同将加速Every Cure通过开发人工智能平台(MATRIX),开发开源药物再利用数据库等,释放现有药物的全部潜力,以治疗更多疾病。
(二)AI推动mRNA疫苗开发
疫苗抗原的识别与优化。AI通过分析病毒基因组,可以预测哪些抗原能触发免疫反应并进行优化,确保持久有效地激活免疫系统。新冠疫情初期,AI技术帮助快速识别新冠病毒的刺突蛋白,并将其优化为疫苗开发的关键靶标,推动了疫苗的开发。2024年9月,英国格拉斯哥大学和澳大利亚悉尼大学利用AlphaFold和ESMFold成功预测了登革热、寨卡病等数百种黄病毒科病毒的蛋白质结构,并揭示了其进入机制,为疫苗开发和应对未来疫情提供了基础。
mRNA序列设计与优化。mRNA疫苗的核心在于设计有效的mRNA序列。AI可预测并优化序列的稳定性和翻译效率,以确保抗原正确表达和免疫反应的激发。在此基础上,通过评估不同序列的免疫反应强度,进一步优化设计出更有效的疫苗。2024年4月,美国疫苗巨头莫得纳与Open AI宣布继续合作利用生成式AI推动mRNA技术在药物研发中的应用。其新开发的AI智能体“Dose ID”可通过自动化工具优化疫苗的安全性和整体特性,选择最佳剂量,并生成定制的可视化数据报告,提升数据处理和临床决策效率。
快速响应病毒变异。病毒的变异可能会降低疫苗效力,而AI技术则可提升应对变异的速度和灵活性。具体来说,AI通过大数据分析实时监测病毒基因突变,识别变异株的传播趋势,预测哪些关键突变位点可能削弱疫苗效力,并迅速优化。在新冠mRNA疫苗研发中,AI通过快速分析Alpha、Delta、Omicron等变异株的基因序列,指导疫苗更新和优化策略,确保疫苗的持续有效性。2024年9月,ARPA-H向“计算实验预测广泛病毒疗效的抗原(APECx)”项目投资2.04亿美元,用于开发计算工具包,设计可防御多种病毒的通用疫苗。10月,中山大学和阿里云等 利用LucaProt算法发现了180个超群和16万余种新RNA病毒,是已知种类的近30倍,成为有史以来最大的病毒物种发现,极大推进了对病毒多样性和演化机制的理解,有助于未来病毒预警和疫苗快速优化。
(三)AI在蛋白质工程中的应用
酶特性优化与改造。AI对酶的优化主要是围绕提升催化效率、稳定性以及底物特异性展开的。传统酶工程通常依赖随机突变和实验筛选,而AI可以通过分析酶-底物复合物的三维结构,识别关键作用位点进行改造,从而增强酶的反应速度和催化能力。2024年1月,德国马克斯·普朗克陆地微生物研究所 开发出合成生物化学循环“THETA循环”,通过机器学习与理性设计,对关键酶进行优化,使乙酰辅酶A产量提高了100倍,为在细胞工厂中实现高度复杂的天然二氧化碳固定途径铺平道路。
新酶设计与绿色化学。AI能够针对特定底物或反应路径,设计出具有特定功能的全新的酶,如能降解塑料、不会生成有害副产物的新型酶等,以推动绿色化学和可持续发展的进程。2024年10月,山东大学和青岛华大基因研究院等 建立了迄今为止最大、最完整的“全球海洋微生物组数据库”,并从中发现了一种能在高盐和高温环境下稳定降解PET塑料的酶dsPETase05,其降解率高达83%,有望实现“高效灭塑”。11月,中国科学技术大学和哈佛医学院 开发出深度生成模型PocketGen,可根据给定的配体分子和蛋白质支架,同时预测蛋白质口袋的序列和结构,结合成功率达95%,速度比物理方法快10倍,氨基酸回收率超过64%,可为高效酶、生物传感器等提供有力工具。
三、AI推动蛋白质领域的产业生态发展
当前,AI正加速推动蛋白质科学从基础研究向产业化迈进,逐步构建起涵盖上游算力算法数据、中游蛋白质设计与药物研发、下游生产与市场应用的完整产业链。上游包括支撑AI运行的算力、算法、数据及生物实验设备。其中,英伟达、AMD、微软等行业巨头的积极布局已成为显著趋势。依托强大算力,深度学习、生成对抗网络、变分自编码器等模型不断推动蛋白质结构预测技术的进步。中游是以AlphaFold为代表的AI预测蛋白质结构技术,为新药开发和蛋白质工程提供了有力工具。除DeepMind、Profluent Bio、Genesis Therapeutics外,国内企业如百图生科、智峪生科、深势科技、分子之心等也在积极探索这一领域。下游应用主要可以分为生物医药和生物制造两大领域。在生物医药领域,AI广泛应用于新药研发、疫苗设计和个性化疗法的制定;在生物制造领域,AI助力优化蛋白质生产工艺,提升酶制剂、抗体药物等大分子药物的产量与质量,加速合成生物学和细胞工厂的构建,推动大规模产业化落地。
随着AI+蛋白质产业链的构建与发展,各国政府积极布局,出台政策鼓励AI与生物制药深度融合。美国国家科学基金会和DARPA等机构资助了多项AI蛋白质研发项目,以期抢占未来生物技术竞争的制高点。然而,AI在蛋白质设计中的安全性、有效性和伦理问题引发了监管层的关注,构建适应AI模式的审批流程和伦理框架已成为重要议题。2024年7月,美国国土安全部发布了2个应对人工智能威胁的新文件:《关于滥用人工智能开发和生产化学、生物、放射和核(CBRN)》和《降低关键基础设施面临的人工智能风险指南》。报告围绕使用AI发起的攻击、针对AI系统的攻击以及AI设计和实施中的失误三个类别进行分析,并提出治理、绘制地图、测量和管理四部分缓解策略,供关键基础设施所有者和用户在处理人工智能风险时进行参考。美国战略风险委员会的诺兰战略武器中心发布《人工智能的进步和生物风险的增加》报告,强调AI的进步增加了生物风险,并指出出口管制是降低生物人工智能风险、促进生物经济贸易的关键工具。
参考资料:
1.Nomburg J, Doherty E E, Price N, et al. Birth of protein folds and functions in the virome[J]. Nature, 2024, 633(8030): 710-717.
2.Lu W, Zhang J, Huang W, et al. DynamicBind: Predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model[J]. Nature Communications, 2024, 15(1): 1071.
Lyu J, Kapolka N, Gumpper R, et al. AlphaFold2 structures guide prospective ligand discovery[J]. Science, 2024: eadn6354.
4.Ren F, Aliper A, Chen J, et al. A small-molecule TNIK inhibitor targets fibrosis in preclinical and clinical models[J]. Nature Biotechnology, 2024: 1-13.
5.https://everycure.org/every-cure-to-receive-48-3m-from-arpa-h-to-develop-ai-driven-platform-to-revolutionize-future-of-drug-development-and-repurposing/#:~:text=ARPA-H%20contract%20will%20supercharge%20Every%20Cure%E2%80%99s%20work%20to,can%20be%20repurposed%20to%20treat%20currently%20untreated%20diseases.
6.Hou X, He Y, Fang P, et al. Using artificial intelligence to document the hidden RNA virosphere[J]. Cell, 2024, 187(24): 6929-6942. e16.
7.Luo S, Diehl C, He H, et al. Construction and modular implementation of the THETA cycle for synthetic CO2 fixation[J]. Nature Catalysis, 2023, 6(12): 1228-1240.
8.Chen J, Jia Y, Sun Y, et al. Global marine microbial diversity and its potential in bioprospecting[J]. Nature, 2024, 633(8029): 371-379.
9.Zhang Z, Shen W X, Liu Q, et al. Efficient Generation of Protein Pockets with PocketGen[J]. bioRxiv, 2024.
作者简介
戴吉 国务院发展研究中心国际技术经济研究所研究三室
研究方向:生物领域形势跟踪及关键核心技术、前沿技术研究