hLife | 中国科学院微生物所王军、赵欣、邓涛等研究团队开发基于大语言模型挖掘抗病毒肽的预测工具

问AI · 这项技术如何帮助应对未来未知病毒?

随着全球化加速与全球流通性增强,病毒传播的速度和范围已达到前所未有的水平,这对公众健康、社会稳定乃至全球经济构成了重大威胁。世界卫生组织(WHO)已经把八种病毒性疾病列为重点关注对象,并提议尽早为未来可能出现全新、未知病原体导致的疾病(X 疾病)做好防御措施。尽管疫苗能在疫情早期有效预防感染,但面对快速变异病毒带来的挑战,亟需加速研发有效的抗病毒治疗手段,以减轻病毒传播风险。近日,中国科学院微生物研究所王军、赵欣、邓涛等研究团队在 hLife 上联合发表题为 “Language model-driven discovery of antiviral peptides” 的研究论文(图1)。研究团队开发了一种基于自然语言处理(NLP)的预测工具,实现了对抗病毒肽(AVPs)的精准识别,研究表明,最强效的AVPs主要通过破坏病毒包膜发挥抑制作用。这项研究不仅建立了发现AVPs的高通量策略,也为开发下一代抗病毒药物研制奠定了重要基础。

图片

图1 论文标题及作者信息

团队首先训练了一个基于Transformer的模型(LW),训练数据来自公开数据库的3605条AVPs和258,875条非抗病毒肽(non-AVPs)。由于数据极度不平衡,研究团队对交叉熵损失函数进行了改进,引入样本比例权重,避免模型因为样本数量不均衡产生的预测偏倚,同时以数据平衡模型(DB)作为对照。结果显示,相较于对照组和已有模型,LW在预测精确度上具有明显优势,精度达到0.87 ± 0.04。为了更高效地寻找新的抗病毒肽,研究团队进一步在不同物种的参考蛋白组中进行AVPs的高通量预测。结果发现,病毒组数据集是最丰富的潜在AVPs来源,有着最高预测比例的AVPs(2.24%)。基于这一发现,团队进一步整合了全球范围内的病毒组研究数据,这些数据来源于多个独立的研究项目,包括中国陆地环境、狩猎活动相关的动物以及小型哺乳动物类群的病毒组序列,同时也涵盖其他脊椎动物、无脊椎动物类群的相关数据。利用LW模型挖掘潜在的AVPs,并结合生物学相关性分析筛选与病毒丰度显著负相关的候选序列,这种策略不仅降低了假阳性,也大大缩小了实验验证范围。该研究最终获得27条候选抗病毒肽(cAVPs)。随后对27条cAVPs的实验验证中,有24条能够显著抑制三种呼吸道病毒中的至少一种。进一步机制研究显示,这些活性最强的肽主要通过破坏病毒包膜发挥作用,从而有效抑制病毒感染。综上所述,本研究展示了人工智能在抗病毒肽发现领域的巨大潜力,不仅大幅提高了AVPs挖掘的效率和准确性,也为未来广谱抗病毒药物的研发提供了全新的思路和技术路线。随着更多病毒组数据的不断积累,这种基于语言模型的策略有望支持更系统、更快速的抗病毒分子探索,为应对未来可能出现的未知病毒威胁提供强有力的技术储备。

✦  +

+

作者简介

王洁婧 硕士

第一作者

机构:中国科学院微生物研究所

研究方向机器学习在微生物方面的应用

邓涛 研究员

通讯作者

机构:中国科学院微生物研究所

研究方向流感病毒复制机制及抗病毒策略研发

赵欣 研究员

通讯作者

机构:中国科学院微生物研究所

研究方向病毒入侵阻断及抗病毒免疫研究

王军 研究员

通讯作者

机构:中国科学院微生物研究所

研究方向微生物组学和人工智能在微生物研究中的应用

引用格式:Wang J, Li D, Shi Y, et al. Language model–driven discovery of antiviral peptides. hLife 2025. https://doi.org/10.1016/j.hlife.2026.11.004.