The Innovation Nutrition | AI重塑新食品成分的免疫安全性评估

问AI · AI如何通过结构感知提升食品安全评估精度?

合成生物学促进了新型食品蛋白质的创制,但目前常见安全评估方法尤其是免疫原性预测严重滞后并存在盲区本文旨在从数据源、特征提取及算法框架三个方面剖析当前免疫原性预测模型的系统性缺陷,并呼吁建立一个融合多分类能力、结构感知和残基级解释性于一体的新一代评估体系,为食品新产品开发的全程安全性提供技术支撑


导  读 

面对餐桌上日益增多的“科技”成分,您是否担心过敏?传统的蛋白质安全检测难以应对合成生物学生成的海量新成分本文剖析了当前免疫原性预测工具存在的系统缺陷,提出了将蛋白质语言模型(Protein Language Models, PLMs)与结构信息融合起来的下一代评估框架,为食品安全提供可靠的数字保障


图片

图1 下一代免疫原性预测的概念框架


现有预测工具的缺陷

尽管机器学习和深度学习已被应用于过敏原预测领域,但目前主流模型存在下列难以克服的系统性限制:


  • 数据集陈旧与同源序列泄漏:当下不少过敏原预测工具存在数据更新滞后问题。例如,2025年发布的AllergenAI模型仍依赖2021AlgPred 2.0数据集,未能及时囊括新发现的过敏原信息。同时,传统数据集中训练集和测试集中常混入高度相似的同源序列,导致模型性能被虚高评估;此外,简单粗暴的序列长度截断策略(如剔除短肽或截断长链)使得部分潜在生物风险被排除在有效评估范围之外。


  • 评估维度的严重缺失:当前的预测框架几乎全部局限于过敏原 vs 非过敏原的二元分类模式。完全忽略了食品蛋白质可能引发的自身免疫交叉反应(例如与麸质相关的乳糜泻等)。这类非IgE介导的免疫损伤已成为现代食品安全评估中不可忽视的重要部分,现有模型的单一维度显然不足以覆盖潜在的免疫风险。


  • 结构盲区与特征僵化:众多致敏表位依赖于蛋白质的空间构象,而现有模型大多基于线性序列特征或传统手工特征,缺乏对蛋白质三维结构的感知。同时,主流的蛋白质语言模型(PLMs)在应用时往往仅被当作固定的特征提取器,其挖掘免疫相关深层特征的潜力未被充分发挥。


为了解决上述痛点,我们建议从以下三个维度重构预测框架:

  • 向多分类预测目标演进:摒弃传统的二元分类标签体系,将基准数据集升级为包含过敏原、自身免疫相关蛋白与非致敏蛋白三分类任务架构。这就需要建立时间戳动态更新、严格去重、且按家族划分的高质量基准数据集。此举的最终目的并非为了单纯搭建一个数据库,而是为预测模型提供最全面、最新的免疫原性数据支撑,从而推动具有高实用价值的模型开发。


  • 全长序列与结构特征的深度融合:模型应当具备处理全长蛋白质的能力,完整保留全长氨基酸序列。同时,将轻量级的结构替代指标(如预测的二级结构、溶剂可及性等)与长上下文序列编码器结合,赋予模型低成本的结构感知能力,以捕捉构象型致敏信号。


  • 实现残基级的高可解释性:黑盒模型仅能输出单一的总体风险评分,无位点级的机制解释,已无法满足蛋白质分子精细化设计的需求下一代预测框架需实现氨基酸残基水平的精准解析,明确驱动免疫反应的核心位点;该框架不仅能提出位点水平的免疫原性机制假设,更能指导后续的蛋白质工程改造,从而在保留目标蛋白质核心功能的前提下,对高风险的表面残基实施精准的靶向突变。


总结与展望

未来,食品成分的免疫原性评估将不再是简单的是非题。研发人员通过整合动态更新的多源基准数据,并搭载能进行残基级解释的 AI 预测模型,就可以在湿实验启动前,高通量地定位特定氨基酸位点的免疫风险,为合成生物学产品提供精准的安全设计依据,从而促使更安全、更健康的替代蛋白尽早走进大众市场。


责编信息

付才力    新加坡国立大学苏州研究院 

王   颖    北京工商大学