【Nature子刊】AI对抗疫情:清华大学程功团队开发SARS-CoV-2进化预测模型

全文2056字,阅读约需6分钟,帮我划重点

划重点

01清华大学程功团队在期刊《Signal Transduction and Targeted Therapy》上发表了一项关于SARS-CoV-2进化预测模型的研究论文。

02该模型名为变异进化预测语义模型(SVEP),能够结合保守规律性和非保守随机性预测SARS-CoV-2变异的序列。

03通过输入3个不同时间点的序列数据,团队在XBB.1.16、EG.5、JN.1和BA.2.86毒株出现之前,就检测到了它们的循环毒株或重要变异。

04此外,研究结果还预测了可能导致未来流行病的未知变种。

05该模型有可能推广到其他病毒病原体中,用于预测病毒进化和检测关键的热点变异点。

以上内容由腾讯混元大模型生成,仅供参考

图片

【导读】突变建模和预测,对于COVID-19和类似大流行病的防备至关重要。然而,现有的预测模型尚未将病毒变异的规律性和随机性结合起来,而且对数据的要求极。团队开发了一种无要求的语言模型,利用规律性和随机性来预测候选的SARS-CoV-2变异和可能出现的突变。

2024年12月23日,清华大学医学院程功教授团队在期刊《Signal Transduction and Targeted Therapy》上发表了题为“A predictive language model for SARS-CoV-2 evolution”的研究论文。利用该模型,团队成功鉴定并验证了几种病毒感染性和免疫逃避能力显著增强的变体。通过输入3个不同时间点的序列数据,团队在XBB.1.16、EG.5、JN.1和BA.2.86毒株出现之前,就检测到了它们的循环毒株或重要变异。此外,研究结果还预测了可能导致未来流行病的未知变种。该模型有可能推广到其他病毒病原体中,用于预测病毒进化和检测关键的热点变异点,从而对可能引发公共卫生问题的新变异发出警告。

图片

https://www.nature.com/articles/s41392-024-02066-x

人工智能与流行病预测

 01 

鉴于目前的研究仅根据现有病毒序列预测变异的局限性 ,团队设计了一种精细的语言模型,命名为变异进化预测语义模型(SVEP),结合组合变异的保守规律性和非保守随机性来预测即将出现的SARS-CoV-2变异的序列。它使科学界无需系统发树、深度突变扫描(DMS)或三维蛋白质结构等信息,就能预测即将出现的SARS-CoV-2变体的序列。然后,团队利用结合了SARS-CoV-2 S蛋白的HIV-1假病毒试验,验证了该预测。


要消除或缓解COVID-19和其他病毒大流行的持续爆发,有两大障碍,一是病原体不断变异的特性,二是疫苗开发耗时过长。后者导致疫苗的更新速度赶不上病毒的变异速度。团队的模型结构大大提高了数据处理效率,减少了计算资源的消耗,使模型能够更有效地模拟组合变异。因此,该模型在及时预测新出现的变异方面具有独特的优势,有助于疫苗研发的快速反应。这项研究的结果还有可能扩展到其他潜在的流行病。

预测的变异与流行的Omicron变异株共享重要突变

 02 

在这项研究中,在6个免疫逃逸能力增强的预测变体中,83.3%的变体(5/6)出现了K444T和N460K突变。同样,在10个感染性显著增强的预测变体中,50%的变体(5/10)采用了R346T突变。这些发现说明,N460K和K444T突变与免疫逃逸高度相关,而R346T突变与病毒传染性相关。重要的是,团队在2022年9月之前建立的模型能够准确预测Omicron S蛋白中未来的相关突变,这证明了该模型在未来监测工作中的潜力。序列#65中包含了所有3个最值得关注的突变,这值得在未来监测Omicron变体时给予更多关注。

图片

预测模型输出的相关序列的残基突变分析。

基准测试显示了该模型的独特优势和可比准确度

 03 

与其他模型相比,EVEscape的独特优势在于它不依赖于监控测序、实验扫描或抗体三维结构的信息来进行预测。同样,团队的模型作为潜在流行变体的早期警报器,仅根据序列数据进行预测,就能对疫苗开发产生重大影响。


数据集-1 中79%的预测序列和数据集-2 中81%的预测序列在免疫逃逸能力方面,超过了该数据集时间范围内的优势变体。为了进一步验证,团队将样本增加到前10,000个序列,结果一致。约65%的序列得分高于当时的流行菌株。这种与EVEscape的比对进一步验证了团队模型的准确性。

图片

预测结果与其他模型的比较。

总结

 04 

1. 模型预测成功案例:模型成功预测了BQ.1、BF.7、BE.1.1、XBB.1.16等变异体的出现,这些变异体具有更强的传播性、免疫逃避能力等特征。

2. 模型的改进与预测能力:模型能够预测包含过多突变、缺失甚至插入的变异体,并且能够预测出重要残基突变。

3. 模型特点:该模型基于序列信息预测未来的SARS-CoV-2变异和氨基酸替换,与其他模型相比,具有更高的预测能力和更少的数据需求。

4. 模型的简易性与时效性:模型简易性使其能够快速应对病毒爆发,及时更新模型,为疫苗开发提供早期预警。

5. 模型的局限性与未来改进:目前模型主要关注RBD区域,未来的研究将考虑更动态的方法来预测非热点区域可能发生的突变。

6. 模型的广泛应用潜力:如果有足够的序列数据,该模型也可用于预测其他病毒序列的突变。


参考资料:


1.Huang, Y., Yang, C., Xu, X. F., Xu, W. & Liu, S. W. Structural and functional properties of SARS-CoV-2 spike protein: potential antivirus drug development for COVID-19. Acta Pharmacol. Sin. 41, 1141–1149 (2020).


2.WHO. WHO Coronavirus (COVID-19) Dashboard. https://covid19.who.int.


【关于投稿】

转化医学网(360zhyx.com)是转化医学核心门户,旨在推动基础研究、临床诊疗和产业的发展,核心内容涵盖组学、检验、免疫、肿瘤、心血管、糖尿病等。如您有最新的研究内容发表,欢迎联系我们进行免费报道(公众号菜单栏-在线客服联系),我们的理念:内容创造价值,转化铸就未来!

转化医学网(360zhyx.com)发布的文章旨在介绍前沿医学研究进展,不能作为治疗方案使用;如需获得健康指导,请至正规医院就诊。