作者:李宝珠
编辑:十九
上海交通大学联合上海人工智能实验室,以及上海科技大学和中科院杭州医学院的合作者,共同开发出了一种新的蛋白质序列大语言模型预训练方法 PRIME。
蛋白质不仅是人体生命活动的执行者,同时也在生物医药、食品加工、酿造业、化工业等多领域发挥着重要作用。所以,人们从未停止围绕蛋白质结构、功能等展开研究,为工业应用场景遴选出符合需求、稳定性高的蛋白质。
然而,从生物体中提取的「野生型」蛋白质,在工业环境中发挥作用所需的理化条件(如温度、pH 值)大多与其原生生物环境相去甚远。换言之,这一类蛋白质的稳定性难以适应严酷的工业环境。因此,为了满足不同应用场景的需求,往往需要通过突变来改善蛋白质的理化特性,从而提高其在极端温度 / pH 值条件下的稳定性,或是增加酶活性及特异性。
需要注意的是,想要改变蛋白质的生物活性需要对其工作机理进行长达数年的实验研究,不仅耗时费力,同时也愈发难以满足快速变化的改造需求。近年来,蛋白质语言模型的出现,虽然已经极大地提高了蛋白质适配性预测的准确度,但在其稳定性预测精度上仍有欠缺。
真正有意义的蛋白质突变,应该在提高稳定性的同时,仍能保持其生物活性;反之亦然。针对于此,上海交通大学自然科学研究院/物理天文学院洪亮教授课题组联合上海人工智能实验室青年研究员谈攀,以及上海科技大学和中科院杭州医学院的合作者,共同开发出了一种新的蛋白质序列大语言模型预训练方法 PRIME,同时在蛋白质突变-活性和突变-稳定性预测,以及其他温度相关的表征学习上取得了最佳预测效果。
相关研究以「A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity」为题,已发表于知名期刊 Science 旗下的 Science Advances。
研究亮点:
* PRIME 能够在不依赖提前实验数据的情况下,预测特定蛋白质突变体的性能改进
* PRIME 能够有效预测出一种蛋白质的多种属性,使得研究人员在不熟悉的蛋白质领域也能获取成功设计
* PRIME 基于「温度感知」语言模型进行训练,能够更好地捕捉蛋白质序列的温度特征
论文地址:
https://www.science.org/doi/10.1126/sciadv.adr2641
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:9,600万条数据,探索蛋白质序列与温度之间的关系
通过整合 Uniprot (Universal Protein Resource) 的公开数据,以及通过宏基因组学研究从环境样本中获得的蛋白质序列,研究人员整理了一个包含 47 亿条天然蛋白质序列的大型数据库 ProteomeAtlas。
* UniProt 是一个提供蛋白质序列和相关详细注释的大型数据库。
在序列筛选过程中,研究人员仅保留了完整长度的序列,并使用生物序列比对工具 MMseqs2 对这些序列进行处理,将序列同一性阈值设置为 50% 以减少冗余,进而识别并注释与细菌菌株最佳生长温度 (optimal growth temperatures, OGT) 相关的序列。
最终,研究人员以这种方式注释了 9,600 万条蛋白质序列,为探索蛋白质序列与温度之间的关系提供了丰富的资源。
此外,在模型热稳定性 zero-shot 预测能力分析中,用于研究熔解温度变化 (ΔTm) 的数据集来源于 MPTherm、FireProtDB 和 ProThermDB,并确保所有实验均在相同的 pH 条件下进行。
其中,MPTherm 包含与蛋白质热稳定性相关的实验数据;FireProtDB 专门用于存储与蛋白质热稳定性及功能相关的突变实验数据;ProThermDB 专门收集与蛋白质热力学性质相关的数据。同时,研究人员还结合了深度突变扫描 (DMS) 的数据,主要来源于蛋白质突变分析数据库 ProteinGym。
* ProteinGym 蛋白质突变数据集
https://go.hyper.ai/YlMT5
模型架构:基于「温度感知」的深度学习模型
该研究所提出的新型深度学习模型 PRIME (Protein language model for Intelligent Masked pretraining and Environment prediction),能够在不依赖提前实验数据的情况下,预测特定蛋白质突变体的性能改进。
该模型基于「温度感知」语言模型进行训练,依赖 9,600 万蛋白质序列的数据集,结合 token 层面的掩码语言建模 (MLM) 任务,和序列层面最优生长温度 (OGT) 预测目标,并通过多任务学习引入 correlation loss 项,能够筛选出具备高温耐受性的蛋白序列,以优化其稳定性和生物活性。
具体而言,PRIME 由 3 个主要部分组成,如下图所示。首先是编码器模块 (Encoder module),这是一个用于提取序列潜在特征的 Transformer 编码器。第二个是 MLM 模块,旨在帮助编码器学习氨基酸的上下文表征。同时,MLM 模块还可用于突变体评分。第三个组件是 OGT 预测模块,它可以根据潜在表征预测蛋白质所在生物体的 OGT。
PRIME 的架构设计
PRIME 在预训练阶段的多任务学习包括了 MLM、OGT 预测及 Correlation loss。
其中,MLM 经常被用作序列数据表征的预训练方法。在该研究中,噪声蛋白质序列作为输入,部分标记被屏蔽为
第二个训练任务是在监督条件下进行优化,研究人员使用一个包含 9,600 万个用 OGT 注释的蛋白质序列数据集来训练 PRIME 模型。该任务的输入为蛋白质序列 (protein sequence),OGT 模块生成的温度值范围为 0° 至 100°C。值得注意的是,OGT 模块和 MLM 模块使用共享编码器运行。这种结构使模型能够同时捕捉氨基酸上下文信息以及其中与温度相关的序列特征。
PRIME 在温度预测中的应用
最后,研究人员引入了 Correlation loss,促进从预测的 OGT 到 MLM 分属的反馈,对齐 token 和序列层面的任务信息,使得大模型更好地捕捉蛋白质序列的温度特征。
实验结论:在预测突变蛋白序列的适应性方面优于最先进方法
研究人员通过实验比较了 PRIME 与当前最先进模型在热稳定性上的 zero-shot 预测能力,其中包括了深度学习模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle,以及传统计算方法 GEMME 和 Rosetta。
研究人员使用了来自 MPTherm、FireProtDB 和 ProThermDB 的数据集,其中包含了在相同 pH 环境下收集的熔解温度变化 (ΔTm),并确保每个蛋白质至少有 10 个数据点,共有 66 项检测。同时,该研究还纳入了深度突变扫描 (DMS) 的检测方法,将 ProteinGym 用作测试基准。
结果如下图所示,PRIME 在预测蛋白质可用性和稳定性方面的表现均优于所有其他方法。
在 ProteinGym 基准测试中(下图中黄色),PRIME 的得分为 0.486,排名第二的 SaProt 得分为 0.457。在 ΔTm 数据集中(下图中深紫色),PRIME 仍然以 0.437 的得分位居榜首,第二名的得分为 0.412。此外,研究人员还在 ProteinGym 的子数据集 ProteinGym-stability 中(下图浅紫色)将 PRIME 与其他方法进行了比较,PRIME 仍然优于所有其他方法。
ΔTm 和 ProteinGym 数据集上的无监督模型基准测试
值得关注的是,为了检测 PRIME 在蛋白质工程实际应用中的有效性及效果,研究人员还进行了湿实验,选择了 5 种蛋白质进行验证,包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶,以及一个特异性纳米抗体的重链可变区。
在 top 30-45 个单位点突变的实验检验中,超过 30% 的 AI 推荐单点突变体在关键性能,如热稳定性、酶促活性、抗原-抗体结合亲和力、非天然核酸聚合能力或者极端碱性条件下的耐受性等方面明显优于野生型蛋白,个别蛋白质的阳性率超过 50%。
PRIME 预测的 5 种蛋白质单位点突变体的结构和实验结果
值得一提的是,团队还基于 PRIME 还展示了一种高效的方法,可快速获得具备增强活性和稳定性的多位点突变体。通过这种小样本微调方法,在不到 100 个湿实验样本下,2-4 轮进化就能产生非常优异的蛋白质突变体。
例如 T7 RNA 聚合酶经过 4 轮干湿迭代,成功获得了具有高活性和高稳定性的多点突变体,最高的多点突变体 Tm 高出野生型 12.8℃,活性是野生的近 4 倍,且部分产品性能超越国际领先的生物科技公司 (New England Biolabs) 统治市场10年之久的同类产品。并且,在 LbCas12a、T7 RNA 聚合酶的实验中,Pro-PRIME 能将阴性单点突变叠加得到阳性多点突变。
这表明 PRIME 能够从序列数据中学习到蛋白质突变的上位效应,这对传统蛋白质工程意义重大。
深耕蛋白质工程,攻克小样本难题
在蛋白质工程领域,蛋白质的表达、纯化和功能测试通常需要昂贵的试剂、仪器,且实验耗时较长,这极大限制了可生成的样本数量。在蛋白质功能研究中,测试蛋白质突变对功能(如催化活性、热稳定性、结合亲和力等)的影响更加需要精确且复杂的实验,很难通过一次性高通量测量所有可能突变的性能。
这就使得机器学习模型难以在有限样本上获得足够的训练,导致模型在预测新突变时表现不佳,加之小样本数据中,实验误差或噪声可能对模型训练造成更大的干扰。可以说,小样本数据的挑战在一定程度上限制了蛋白质工程领域的研究效率及准确性。功过相伴,这也极大推动了研究人员探索创新技术,结合机器学习、实验技术和多模态数据分析等突破小样本的限制。
本文所述的研究团队便在这方面表现突出,除了上文提到的 PRIME 外,洪亮教授团队联合谈攀博士还曾面向小样本学习发布多项成果。
此前,该团队综合利用元迁移学习 (meta-transfer learning, MTL)、排序学习 (learning to rank, LTR) 和参数高效微调 (parameter-efficient fine-tuning, PEFT),开发了一种能在数据极度匮乏的情况下,有效优化蛋白质语言模型的训练策略 FSFP,可用于蛋白质适配性的小样本学习,在使用极少湿实验数据的情况下,极大地提高传统蛋白质预训练大模型在突变-性质预测的效果,在实际应用中也显示出了巨大的潜力。
相关研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」为题,发表在 Nature 旗下 Nature Communications。
此外,洪亮教授也曾分享过相关观点,他认为「未来 3 年,在蛋白设计、药物研发、疾病诊断、新靶点发现、化学合成路径设计以及材料设计等领域,专业领域的通用人工智能将带来明确的范式变革,将过去依靠人脑零星试错的科学发现模式,转变为 AI 大模型自动化标准设计模式」。
具体变革包括了构建零样本或者小样本学习方法,以及构建预训练技术模型,在没有数据的情况下,则通过物理模拟器产生精度略低的大量假数据来做预训练,再用真实珍贵的数据进行微调,完成强化学习。
洪教授强调,「假数据指非真实世界的数据,但有一定的可靠度,它可以是 AI 生成的,也可以是物理计算模拟得来进行数据增强,最后真实的湿实验数据最为宝贵,用于模型的最终微调」。
诚然,数据稀缺挑战其实不仅存在于蛋白质工程领域,小样本、甚至是零样本学习方法至关重要,期待洪亮教授团队及谈攀博士围绕这一痛点带来更多高质量成果。