Machine Learning-Driven Enzyme Mining: Opportunities,Challenges,and Future Perspectives
机器学习驱动的酶挖掘:机遇、挑战与未来展望
摘要
酶挖掘正在迅速发展成为一种数据驱动的策略,旨在从广阔的未表征蛋白质景观中识别具有特定功能的生物催化剂。将机器学习整合到这些工作流程中,能够实现酶功能的高通量预测——包括酶委员会编号(EC编号)、基因本体术语(GO terms)和底物特异性——以及关键的催化特性,如动力学参数、最适温度、pH值、溶解度和嗜热性。这篇综述系统地概述了当前最先进的机器学习模型,并重点介绍了能够证明这些模型在加速酶类发现方面具有有效性的代表性案例研究。尽管取得了显著进展,但当前的方法仍然受到数据稀缺性、模型泛化能力和可解释性的限制。我们讨论了应对这些挑战的新兴策略,包括多任务学习、多模态数据整合和可解释人工智能。这些进展共同确立了机器学习引导的酶挖掘作为一种可扩展且可预测的框架,用于发现新型生物催化剂,在生物催化、生物技术和合成生物学领域具有广泛的应用前景。
介绍
酶是关键的生物催化剂,介导着维持所有生命形式的复杂化学转化。它们卓越的催化多功能性使其在生物技术、合成生物学和工业生物催化中不可或缺。尽管公共数据库中收录了大量的酶序列,但仍有相当一部分酶未被表征,仅以原始序列数据的形式存在,缺乏通过实验验证的功能。要释放它们的生物技术潜力,就需要强大的功能注释框架和能够直接从序列信息推断关键生化特性的预测模型。
历史上,酶的发现依赖于基于培养的方法,涉及分离、培养和生化筛选。虽然这些方法在可培养的有限类群中有效,但它们受到一个事实的限制,即大多数微生物物种在实验室条件下不易培养。宏基因组学的出现,通过对环境DNA进行直接测序,极大地扩展了对酶序列空间的访问。像MGnify这样的平台现在托管了数百万条蛋白质编码序列。然而,功能注释仍然稀少,限制了生物学解释和转化应用。
为了克服这一瓶颈,酶挖掘作为一种计算策略应运而生,旨在将序列数据与推测的酶功能连接起来。诸如序列相似性网络(SSNS)、EnzymeMiner和比较基因组学等工具,能够基于同源性、保守基序和基因组背景,对酶候选物进行优先级排序。这些方法通过促进识别高置信度的靶标进行实验验证,提高了发现管线的效率。
除了选择候选序列外,计算酶挖掘策略越来越多地通过生成假设驱动的优先级来指导实验设计。这些优先靶标提高了设计-构建-测试-学习整个循环的效率,有助于改进训练数据集,并将机器学习模型的应用扩展到不同的酶学背景。总的来说,这些贡献增强了计算预测与经验验证的整合,从而加速了整个发现过程。
尽管取得了这些进展,但仍然存在重大挑战。许多候选序列缺乏标准化的功能注释,如EC编号或GO terms,这使得基准测试和下游整合变得复杂。与此同时,下一代测序、微流控和高通量筛选领域的创新提高了实验分析的效率并降低了成本。然而,验证工作仍然耗时且资源密集,因此需要可扩展的计算解决方案来应对海量序列数据。
近期高通量功能筛选的进展产生了大量数据集,现在支持了酶发现领域新一波的机器学习应用。基于这些数据集训练的模型可以预测催化活性、底物特异性和物理化学属性等特性,从而指导更具针对性的实验工作流程。这些方法不仅减轻了实验负担,还加深了对序列-功能关系的机制理解。
在这项工作中,我们全面审视了用于酶挖掘的机器学习策略,强调了它们在加速跨不同功能和物理化学维度的生物催化剂识别、注释和表征方面的作用。我们探讨了功能分类方面的最新进展——包括EC编号、GO术语和底物特异性的预测——以及关键酶学特性(如动力学参数、热稳定性、最适pH和溶解度)的估算。我们特别关注了机器学习模型的架构多样性,包括监督、无监督和多模态框架,以及它们整合到预测性和可扩展的发现管线中的方式。我们进一步强调了展示这些工具实际效用的代表性案例研究,并批判性地讨论了持续存在的挑战,包括数据稀缺性、有限的可解释性和模型泛化能力。最后,我们提出了一个模块化的、机器学习引导的酶挖掘策略,并概述了未来向自主、闭环发现平台发展的机遇,这些平台将计算预测与实验验证相结合——为下一代酶生物技术奠定基础。
酶挖掘作为功能性生物催化剂发现的核心框架
酶挖掘已成为现代生物技术中的关键策略,使得能够从基因组和宏基因组数据集中编码的广阔、大多未被表征的序列空间中系统地识别功能性生物催化剂。
与依赖培养微生物的生化筛选并受培养偏差和系统发育冗余限制的传统酶发现方法相比,酶挖掘绕过了实验室培养的需要,允许直接获取来自极端微生物或其他难以获取的微生物来源的酶。这种计算范式将生物催化剂发现的领域扩展到了常规限制之外,促进了对微生物多样性的大规模探索,以揭示具有新颖或非典型催化功能的酶。然而,其有效性关键取决于在没有实验验证的情况下进行准确的功能注释,并且存在通过基于同源性的推断传播错误预测的风险。
从概念上讲,酶挖掘位于酶发现和酶工程的交汇处。前者旨在通过实验或宏基因组探索发现新酶,而后者侧重于通过理性设计或定向进化将已知酶定制用于特定应用,酶挖掘则通过计算优先级排序具有理想特性的候选序列以供下游优化,从而桥接了这些领域。因此,它在生物技术工作流程中扮演着日益核心的角色,既指导着新酶的选择,也指导着它们融入工程管线。
传统的酶挖掘过程通常分为一系列相互依存的阶段,包括:
i) 创建定制的酶池, ii) 序列水平的表征和多样性分析, iii) 功能注释和候选物优先级排序,以及 iv) 选定靶标的实验验证。
图 1:传统酶挖掘工作流程:从序列筛选到实验验证。该流程始于酶库构建,即根据功能或结构标准从蛋白质数据库中筛选候选序列。随后进行序列表征,通过聚类算法、序列相似性网络或系统发育方法分析序列多样性及关联性。第三阶段的功能注释包含酶功能计算预测,以及对下游验证候选序列的优先级排序。最终通过生化实验与高通量筛选完成实验验证,确认预测功能。这些环节共同构成从基因组与宏基因组数据中发现和表征新型酶的循环迭代流程。
这些步骤虽然有效,但在可扩展性和分辨率方面面临越来越大的局限性——尤其是在宏基因组存储库以指数级速度持续增长的背景下。在接下来的章节中,我们将探讨机器学习如何被整合到这些阶段中的每一个,提供预测性、可扩展的替代方案,克服关键瓶颈,并将酶挖掘的能力扩展到新的功能和进化景观。
该过程始于构建一个定制的酶池,根据特定的研究目标(从针对性的生物催化剂识别到更广泛的酶超家族探索)选择蛋白质序列。序列检索通常涉及使用BLAST或PSI-BLAST进行同源性搜索,通过Foldseek或ESM宏基因组图谱(ESM Metagenomic Atlas)等工具进行结构比较,以及使用InterPro等集成平台进行基于结构域的搜索。像EnzymeMiner这样的自动化工具通过基于EC编号过滤序列并根据功能特征进行聚类来优化这一阶段,从而提高了池生成的特异性和可扩展性。
一切酶挖掘工作的基础在于各类数据库,它们储存着海量且持续增长的蛋白质序列资源。除了UniProt、NCBI等最全面的通用数据库外,还存在许多任务专用型数据库,这些数据库通常提供更聚焦且注释更完善的数据集。代表性案例包括塑料降解酶专用数据库PlasticDB和PAZy,以及氧化还原酶数据库UPOBase、异戊烯基转移酶数据库PrenDB,还有若干工业酶数据库等。
近年来,以MGnify为代表的宏基因组数据库因其能捕捉环境微生物多样性、挖掘新型酶功能的优势而日益重要。关于宏基因组资源更详尽的概览,可参考Aplakidou等人综述中的表1,该表还收录了针对特定微生物组类型的专用数据库。
在结构数据库方面,历史上长期以RCSB蛋白质数据库(PDB)为核心。但随着AlphaFold及相关技术计划的出现,蛋白质结构领域已发生革命性扩展。AlphaFold蛋白质结构数据库(AFDB)与”蛋白质宇宙图谱”等可视化平台,现已与实验结构数据库形成互补,共同支撑大规模的结构-功能探索研究。如需了解更全面的蛋白质与酶数据库资源,读者可参阅该领域最新综述中整理的完整列表(例如Presern和Golicnik的综述)。
一旦组装完成,酶池将进行序列水平的表征,以评估多样性、冗余性和进化关系。通常使用序列相似性网络、系统发育树和聚类算法 (CD-Hit, DBSCAN, MMSeqs2)来减少冗余并将序列分组为功能上连贯的簇。像EFI-EST这样的可视化工具为SSN(序列相似性网络)构建提供了动态阈值设置,能够检测密切相关的同源物和具有潜在功能新颖性的远缘相关酶。
下一个阶段,功能注释,是管线中最关键和最具挑战性的部分。在此步骤中,基于序列基序、保守结构域或推断的结构特征,使用生物信息学预测来推断催化功能、底物特异性或环境耐受性。虽然基于同源性的方法和精选数据库仍然是基础,但当处理远缘同源物、多功能酶或来自特征较差的类群的序列时,它们往往力不从心。这些局限性引发了对更复杂注释技术日益增长的兴趣,包括基于机器学习的技术,这将在下一节中讨论。
管线的最后阶段涉及实验验证,在此阶段,排名靠前的候选物被表达、纯化,并进行生化分析以确认预测的功能。通常评估的参数包括催化活性、底物范围、热稳定性和pH耐受性。近年来,高通量筛选平台提高了验证的速度和规模,支持发现和优化的迭代循环。来自实验结果的反馈可用于改进选择标准或重新训练预测模型,从而增强管线的适应性。
尽管有其效用,传统的酶挖掘框架仍面临几个持续的挑战。
功能注释仍然严重依赖于同源性推断,这限制了在序列发散区域的发现。 公共数据库中的冗余和数据不平衡引入了偏差,掩盖了稀有但具有生物技术价值的酶。 此外,宏基因组数据量的增长超过了传统工具的分析能力,使得大规模优先排序和解释变得困难。
这些局限性凸显了对可扩展、准确且泛化能力强的计算框架的需求——这促使了机器学习在酶挖掘管线中的整合。
正如接下来的章节所讨论的,基于机器学习的方法在功能预测、候选物优先级排序和序列到功能的泛化方面提供了显著优势。它们在酶挖掘中的整合正在重新定义生物催化剂发现的格局,推动了从基于规则的筛选向大规模数据驱动推断的转变。
酶发现和挖掘的机器学习策略
高通量测序技术的进步以及基因组和宏基因组存储库的指数级增长,极大地扩展了可用于酶发现的序列空间。然而,从这个广阔且异质的景观中提取功能见解,需要能够超越同源性和传统规则启发法的计算框架。机器学习已成为这一背景下的变革性方法,为建模复杂的序列-功能关系、预测酶学特性以及实现在不同分类和生态背景下对生物催化剂候选物进行可扩展的优先排序提供了数据驱动的策略。
在本节中,我们探讨了基于机器学习的酶挖掘的概念基础和方法进展。我们首先回顾核心学习范式——包括监督学习、无监督学习和生成式建模——因为它们与酶生物技术相关。然后,我们描述了早期的数据驱动策略,这些策略为当前的机器学习架构铺平了道路,强调了它们向深度学习和蛋白质语言模型的演变。我们特别关注了用于功能注释(例如,EC编号、GO术语、底物特异性)和酶学特性估计(例如,动力学、热稳定性、溶解度)的预测框架,以及在模型泛化能力、可解释性和数据可用性方面持续存在的重大挑战。最后,我们展示了代表性的案例研究,以说明这些方法如何在现实世界的酶挖掘场景中得到应用,为开发完全自主的机器学习引导的发现管线奠定了基础。
酶生物技术中数据驱动建模和机器学习的基础
数据驱动策略已成为现代计算生物学的核心,使得预测性和探索性分析能够补充传统的基于规则的方法。在酶生物技术的背景下,机器学习作为建模复杂序列-功能关系、导航高维数据空间以及从大规模生物数据集中生成可操作假设的强大范式。
机器学习包括多种学习范式。
监督学习被广泛用于根据已标注的数据集来预测功能注释或生物化学特性。 无监督学习支持探索性任务,例如聚类酶家族或发现潜在序列嵌入。 强化学习虽然不太常见,但已被应用于从头酶设计和优化等任务。 最近,生成式学习逐渐受到重视,它能够利用深度生成模型来生成新的酶序列,或者完成部分已知特征的酶序列的生成工作。
机器学习(ML)模型开发的传统数据驱动工作流程遵循一系列结构化阶段。
它从数据收集开始,可能涉及从公共存储库或实验数据集中提取序列和注释。 第二步,数据表征,至关重要,可能依赖于手工制作的特征(特征工程)、经典编码方案(独热码,k-核苷酸频率)或来自预训练蛋白质语言模型的新兴嵌入技术。结构编码器和几何深度学习也已成为捕捉酶结构或图的空间和拓扑信息的有前景的替代方案。
在数据准备之后,使用经典算法(支持向量机,随机森林)或更复杂的架构(如深度神经网络和transformers)进行模型训练。在许多情况下,微调预训练模型或整合基于GDL(几何深度学习)的架构为提高生物任务中的泛化能力提供了有效策略。然后使用适合问题类型的指标评估模型性能。对于分类任务,通常依赖准确率、精确率、召回率、F1分数或ROC曲线下面积。相比之下,回归任务使用均方误差、均方根误差或皮尔逊相关系数等指标。
为了增强模型性能,通常采用超参数优化策略,如网格搜索、随机搜索、遗传算法或贝叶斯优化。最后,训练好的模型可以部署用于对新数据进行推理,或整合到更广泛的酶发现、注释或设计管线中,通常使用模块化或基于Web的系统来实现可扩展性和可重复性。
尽管有这些方法论上的进展,将机器学习整合到酶生物技术中仍面临几个持续的挑战。数据稀缺仍然是一个基本限制,尤其是在所谓的“低样本量”环境中,即标注数据有限或分布不均衡的情况下。在许多情况下,公共数据集偏向于过度代表的酶家族或研究透彻的模式生物,导致注释偏差和泛化能力降低。此外,ML模型(尤其是深度学习架构)的可解释性对其在生物学环境中的采用构成了障碍,因为在这些环境中,机制性理解至关重要。整合可解释人工智能、纳入不确定性估计并优先考虑透明度的努力,对于弥合计算预测与实验验证之间的差距越来越有必要。
这些基础框架为将机器学习应用于酶的挖掘与发现这一领域奠定了概念和方法论的基础。以下章节详细介绍了具体应用,包括功能注释和酶学特性的预测。
早期用于酶挖掘的数据驱动策略
在本节中,我们将介绍那些早期基于数据的方法,这些方法为现代酶挖掘领域的机器学习奠定了基础。这些方法利用结构化数据集和统计学习技术,实现了对酶的功能分类和性质预测,这与传统依靠培养和实验处理量限制的筛选工作流程形成了显著的不同。
我们首先回顾了为功能注释开发的计算策略——包括EC编号分配、GO术语预测和底物特异性分类——然后是估计催化效率、热稳定性、溶解度和最适反应条件等酶学特性的模型。最后,表1针对各项预测任务,概括了最新、最具影响力、普遍适用且最易获取的工具。
用于功能酶注释的机器学习模型
酶的功能注释在酶生物技术中起着核心作用,能够识别、分类和重新利用生物催化剂,用于工业、制药和环境应用。虽然基于活性测定、结构分析和比较基因组学的传统方法仍然可靠,但它们资源密集,且越来越无法跟上基因组和宏基因组数据集的快速扩张。机器学习已成为一种强大的替代方案,提供直接从序列和结构特征推断酶功能的预测框架。
基于机器学习的分类模型现在已成为酶挖掘工作流程中不可或缺的一部分。这些模型可以在多个层次预测酶功能,包括反应类型、催化机制和底物特异性。通过利用多种数据模态——如氨基酸序列、结构基序和分子表征——机器学习方法在EC编号、GO术语和酶-底物相互作用的预测方面取得了进展。 此外,这些技术进步推动了催化机制模型的发展,例如EzMechanism。该模型能基于一套经整理的催化反应规则,自动推导出合理的催化途径。这种方法通过在单个化学步骤层面(而非全局类别标签层面)处理反应机制假设,对机器学习分类模型形成了重要补充。
先进的机器学习架构,包括卷积神经网络、图卷积网络和transformers,已显著提高了跨不同酶家族的预测准确性。
CNN(卷积神经网络)从序列窗口中提取空间局部特征, GCN(图卷积网络)对蛋白质结构或相互作用网络中的拓扑关系进行建模, 而transformers通过自注意力机制捕捉长程依赖关系。
这些架构上的进步使模型能够学习更丰富的蛋白质功能和上下文表征。
文献中突出的三种基于机器学习的功能预测主要类别(图2)。首先,
EC编码分类器能够根据酶所引发的化学反应,对酶的活性进行分层预测。这些模型有助于按照 EC系统的四级结构对酶进行分类,涵盖从广泛的反应类别到具体的底物-产物转化等各个层面。 其次,GO术语预测模型提供更广泛的功能背景,涵盖分子功能、生物过程和亚细胞定位。这些模型通常整合结构、进化和本体信息。 第三,底物特异性模型预测酶-底物兼容性,支持理性酶设计和高通量候选物优先级排序。此类模型可以专注于二元分类(结合/不结合)、按可能性对底物进行排名,甚至预测完整的底物谱。
图2. 功能酶注释的机器学习框架。本图概念性概述了从蛋白质序列或结构数据出发,对酶进行功能表征的机器学习策略。(左)EC编号分类模型沿四级EC分类层级预测酶功能,捕捉日益特异的生化活性及底物-产物关系。(中)基因本体(GO)术语预测整合分子功能、生物过程和细胞组分注释,采用融合结构、演化及本体信息的深度神经网络架构。(右)底物特异性模型通过二元或多分类预测方案评估酶-底物兼容性,从而实现对候选酶实验验证的理性优先级排序。这些模型共同构成了现代数据驱动酶挖掘流程的核心,实现了可扩展、高通量且具有生物学意义的功能注释。
这是预印本的文本:
早期的EC分类模型,例如 ECPred,依赖于基于精心整理的序列相似性数据训练而成的集成分类器,对于代表性良好的酶类表现出出色的性能。而更近的模型则采用了蛋白质语言模型嵌入,包括 CLEAN和 HiFi-NN,它们利用 ESM得到的表征来提高分类性能,尤其是在多功能或低同源性的序列方面。CLEAN 采用对比学习来提高嵌入质量,而 HiFi-NN 则使用分层索引来实现高效相似性检索。基于Transformer 的架构,如 DeepECtransformer和ECRECer,进一步增强了预测能力,并通过注意力机制引入了可解释性。DeepECtransformer 使用焦点损失来解决类别不平衡问题,而 ECRECer 在多任务设置中将循环单元与注意力机制相结合。像 ProteInfer和 DeepFRI这样的混合模型将卷积神经网络(CNN)和图卷积网络(GCN)相结合,能够同时预测酶EC和GO术语,支持多层次的功能注释,并能够对几乎没有同源性的酶进行预测(更多细节请参见补充材料中的 S1 部分)。
这是正式发表的文本(略去了技术细节,突出了功能特征):
早期的EC分类模型,例如ECPred,依赖于在经整理的序列相似性数据上训练的集成分类器,在代表性良好的酶类别上表现出色。现代深度学习模型则显著提升了酶注释任务的覆盖范围和泛化能力。例如,基于超过2200万条序列训练的DeepECtransformer,在大多数EC类别上实现了超过0.90的精确率和F1分数,并成功注释了超过400个先前未表征的大肠杆菌基因,其中多个基因后来得到了实验验证,展示了其指导湿实验发现的潜力。同样,将对比学习与ESM衍生嵌入相结合的CLEAN模型,在经整理的基准测试中获得了接近0.87的稳健F1分数,并在低同源性和多功能酶上表现尤为出色。最近提出的HiFi-NN模型进一步展示了基于嵌入方法的可扩展性,它采用分层微调和最近邻检索技术,能够注释序列相似性低于40%的宏基因组序列。关于EC编号预测可用工具及其底层架构的更详细概述见补充信息 2.1 段。
总体而言,当前EC分类器在独立基准测试中的准确率介于80%到95%之间,并已成功应用于全基因组和宏基因组数据集,有效地将原始序列数据转化为功能可解释的酶目录。
基于基因本体(GO)术语的功能注释为酶活性提供了多维度的视角,涵盖分子功能、生物过程和细胞定位。与主要捕捉反应层面化学特性的EC编号分类不同,GO术语预测反映了酶功能在细胞系统内更广阔的生物学背景,是对催化分类的重要补充。尽管GO注释具有重要价值,但由于本体层级结构、严重的标签不平衡、功能覆盖不完整以及公共数据库中同源序列的过度使用等问题,这仍然是一项具有挑战性的任务。
在GO术语预测方面,一些最新模型利用深度学习和基于图的表示方法来捕捉基因本体的层次结构。DeepFRI在蛋白质结构图上运用图卷积网络,实现了对残基的空间推理和功能相关位点的识别。PFresGO进一步将GO层级结构整合到自注意力层中,并在一个包含36,641条蛋白质序列、涵盖2,752个GO术语的精选数据集上进行训练。在独立测试集上,其在分子功能、生物过程和细胞组分三个子本体上的AUPRC分数分别达到0.6017、0.2934和0.3612,性能超越了先前的方法。
PFresGO展现出对序列同源性很强的独立性,突显了其可扩展性和泛化能力。它在高特异性地识别功能关键残基方面表现优异,并且其注意力权重与实验验证的功能位点之间存在强相关性,为蛋白质功能注释和位点层面解释提供了强大框架。
同样地,SPROF-GO结合了预训练蛋白质语言模型的嵌入和标签扩散技术,其训练数据来自2018年前注释的UniProt蛋白质,整合了Swiss-Prot、GOA和GO的数据。与早期的基于序列和网络的预测器相比,它在GO三个子本体上的AUPRC提升了14.5%至27.3%。重要的是,SPROF-GO对非同源和分类学上新出现的蛋白质仍保持高预测精度,凸显了大规模预训练所带来的泛化优势。
其他模型,例如TransFew和PU-GO,利用蛋白质语言模型的预训练嵌入,结合少样本学习来从有限数据中进行泛化,并采用正样本-无标签学习来缓解标签不完整的问题。GO术语预测的更多工具和方法细节详见支持信息第2.2节。
底物特异性,即酶对特定底物催化反应的能力,已成为酶挖掘中日益关键的一环,因为它能根据预测的底物偏好对候选酶进行优先级排序。从GTPredict、AdenylPred等经典分类器,到ProSmith、ESP等多模态深度学习框架,这些模型都利用了蛋白质和底物的特征表示。
经典模型如GT-Predict和AdenylPred,利用物理化学描述符和对接特征,在特定酶家族上实现了80-90%的准确率。而近期的多模态框架,例如ProSmith,在多模态Transformer网络上使用基于Transformer的嵌入,并结合梯度提升决策树,来预测数千个酶-底物对的底物谱。ProSmith基于超过80万对增强的酶-底物数据进行训练,在独立测试集上达到了94%的准确率。而ESP模型,即使对序列同源性低于40%的酶,也保持了超过90%的准确率。作为ProSmith的前身,ESP整合了图神经网络来编码底物结构,并将这些表征与酶嵌入相结合,通过梯度提升框架实现了灵活且准确的底物特异性预测。
底物-酶-产物模型,如SEPDNN和EnzyPick,通过整合产物信息进一步扩展了预测范围,实现了完整反应结果的预测。同时,为特定酶家族开发的混合机器学习流程(例如刘等人针对细菌腈水解酶的模型)展示了结合对接特征、物理化学描述符和集成学习器进行功能筛选的有效性。附件支持信息2.3节列出了更多可用于底物特异性预测的工具及其底层架构。
除了上述主要的性质预测任务外,还存在一些具有特定相关性或由其他性质综合构成的蛋白质性质。蛋白质可开发性即为一例,它综合了表达、溶解度和稳定性信息,对于后续需要关注良好可开发性的酶工程任务至关重要。表达性是一个稍大的研究领域,是后续实验验证的另一项关键要求。刘等人的近期研究应用迁移学习方法,分别为88个物种创建了包含88个模型的集成预测器,其适用性已通过在大肠杆菌中的表达得到实验验证。关于表达性领域的更全面概述,可参考Baranowski等人的最新综述。
这些方法展示了多样化的机器学习架构如何汇聚成更全面、可解释性更强的功能酶注释框架。因此,基于机器学习的注释模型为酶功能预测提供了可扩展且准确的策略,成为现代酶挖掘工作流程中的基础工具。它们跨功能层级和数据模态运作的能力,促进了对候选酶的快速筛选和优先级排序,加速了在序列多样化的数据集中发现新型生物催化剂。
预测酶学性质的机器学习模型
机器学习模型在预测酶的特性方面已变得愈发重要,这些特性对于理解酶的功能以及在工业环境中优化其应用至关重要。这些特性包括动力学参数、热稳定性、pH最优值、溶解度以及其他物理化学特性(图 3)。通过提供可扩展、高通量的替代方案来取代传统的生化检测方法,基于机器学习的方法显著提升了酶挖掘工作流程,能够从大量且多样化的序列数据集中快速识别和优先筛选候选生物催化剂。这些模型能够利用各种形式的输入数据,例如氨基酸序列、蛋白质结构信息和环境变量,并通过一系列架构实现,从传统的回归模型到先进的神经网络和基于转换器的系统。
图3. 基于机器学习的酶物理化学与动力学性质预测。(左上)估算kcat、Km等动力学常数,从而依据序列与结构表征预测催化效率。(右上)基于理化特征与预训练嵌入的热稳定性与嗜热性预测,助力筛选适用于高温环境的酶。(左下)利用从氨基酸组成与序列模式推断pH偏好的模型,对嗜酸性与嗜碱性酶进行分类。(中下)预测酶活性的最适pH与最适温度条件,以适配特定工业或环境需求。(右下)溶解度分类器预测在异源表达系统中实现可溶性表达的可能性,辅助蛋白质生产流程。这些模型共同通过数据驱动的方式,实现对功能相关生物催化剂的识别、优先级排序与表征,从而助力高通量酶挖掘。
在已被广泛建模的酶学性质中,定义催化效率的动力学参数是最受关注的一类,特别是描述底物亲和力的米氏常数(Km)和描述催化速率的转换数(kcat)。根据米氏动力学,Km对应于反应速率达到最大值(Vmax)一半时的底物浓度,Km值越低表明底物亲和力越高。反之,kcat代表在饱和条件下,每个酶分子单位时间内能将底物分子转化为产物的最大数量。
早期的动力学预测工作采用回归算法,并使用从序列或分子描述符衍生的手工特征。例如,Mellor等人使用高斯过程,基于反应特征和蛋白质子序列来估计Km值,在低方差数据集上取得了0.50至0.78的Q2值。
更先进的方法,如DLKcat基于从BRENDA数据库中整理的超过16,000个酶-底物对进行训练。该模型整合了图神经网络来表示底物结构,并结合卷积注意力层来编码酶序列。在log10尺度上,其R2达到0.50,RMSE为1.06,与早期模型相比,预测误差降低了近一个数量级。重要的是,其注意力机制提供了残基水平的可解释性,可突出显示与催化相关的序列位置。尽管有这些改进,DLKcat对于训练数据中缺乏紧密同源物的酶,其性能有所下降,这凸显了模型泛化能力方面仍然存在的局限。
在此进展基础上,UniKP引入了标签分布平滑技术,以缓解动力学数据集中固有的数据不平衡问题,从而提升了预测性能(R2 ≈ 0.56-0.60),并助力发现了高活性的酪氨酸氨裂合酶。CatPred则通过整合残基水平的三维结构描述符,进一步推进了这一方向,增强了对分布外测试集的鲁棒性。尽管如此,预训练的蛋白质语言模型已在跨酶家族中展现出更优越的迁移学习能力,这表明演化序列上下文可能比单一结构包含更丰富的动力学信息。
近期的多模态框架,如MPEK,通过整合环境和生物体特异性因素(包括温度和pH),扩展了动力学预测的维度。MPEK利用ProtT5提取蛋白质序列表征,利用Mole-BERT提取底物的分子描述符,联合预测不同酶类的Km和kcat。生物体来源、pH和温度则通过独热编码,并经由径向基函数网络进行融合。
像SEP-DNN这样的模型,通过整合酶、底物和产物信息,扩展了预测能力,超越了二元相互作用的预测。这些架构支持更细致的推理,包括潜在的产物形成,从而增强了在合成生物学和生物催化中的下游实用性。
嗜热性预测也得益于机器学习的进步。传统的分类器,如支持向量机和随机森林,利用特征工程展现了强大的性能。这些模型通常在从UniProt、PDD或生物体生长数据中整理出的嗜热酶、嗜温酶和嗜冷酶数据集上进行训练,通常能达到90%以上的准确率。例如,Feng等人通过使用简化的氨基酸字母表和自协方差特征,准确率最高达到了98.2%,超越了基于更简单描述符的先前分类器。
多分类预测器,如ThermoProt,将预测范围扩展到包含四个不同的温度适应性类别(嗜冷、嗜温、嗜热和超嗜热),报告在二元分类任务中准确率介于74%至87%之间。基于集成学习的方法,如SAPPHIRE,通过整合多种学习算法,进一步提升了预测准确率和泛化能力,在独立测试集上准确率高达94%。这些模型已在定向酶挖掘中被证明有效;例如,TAxyl成功从瘤胃微生物组中鉴定出新型嗜热木聚糖酶,从而促进了生物工艺优化。
深度学习框架,如DeepTP和DeepPPThermo,引入了基于注意力的长短期记忆网络和卷积神经网络模块,能够捕捉序列的层次模式,在区分嗜热酶与嗜温酶的任务中实现了94-96%的准确率。这些模型在包含数千条来自UniProt和ThermoProtDB的非冗余酶的数据集上训练,经过了过滤以避免序列同源性偏差,并在独立测试集上进行了评估。最近,使用预训练蛋白质语言模型的Transformer方法已成为最先进的技术。ProLaTherm展示了源自ProtT5的上下文嵌入的有效性,以97%的准确率超越了BertThermo等模型。ThermoFinder通过元XGBoost集成结合多种预训练嵌入,将预测准确率推高至98.9%以上。
在嗜酸性与嗜碱性酶分类方面,早期模型如Zhang等人和Su等人的工作使用了结合结构和理化特征的集成框架。Zhang等人开发的随机森林分类器,在来自UniProt和PDB的非冗余蛋白质上训练,达到了90.7%的准确率和0.96的AUC值,证明了仅从序列数据中区分嗜酸性和嗜碱性酶的可行性。同样,Su等人成功预测了一种海洋脂肪酶的碱性偏好,后经实验验证,说明了基于机器学习的预测如何指导极端酶的发现。
AcalPred和piSAAC等工具通过引入基于支持向量机和深度神经网络的机器学习框架,推进了酶最适pH的预测。AcalPred在从BRENDA和UniProt收集的、具有实验验证最适pH值的酶的数据集上训练,在留一法交叉验证下达到了高达96.7%的准确率,为大规模筛选提供了便捷平台。piSAAC则通过引入分割氨基酸组成来捕捉序列基序与pH偏好之间的相关性,进一步扩展了该方法。其深度神经网络变体,在平衡的酸性和碱性酶数据集上训练,在两个独立测试集上分别达到了98.0%和97.9%的准确率,AUC值达到0.98。
最适温度和最适pH的定量预测对于酶的表征和设计日益重要。Chu等人以及Yan和Wu的早期工作,使用支持向量机回归和人工神经网络,证明了在特定酶家族(包括β-琼脂糖酶和β-葡萄糖苷酶)中进行此类预测的可行性。尽管应用范围有限,但这些模型取得了令人鼓舞的准确度,并为了解热稳定性和pH稳定性的序列决定因素提供了初步见解。
通用框架,如TOME及其后继者TOMER,通过整合生物体层面的元数据,将适用性扩展到家族特异性数据集之外。TOME在数千条带有BRENDA和UniProt中实验验证Topt值的酶序列上训练,取得了R2为0.94、RMSE为4.5°C的成绩,凸显了结合生物体和序列信息的预测能力。TOMER通过数据重采样和集成平均进一步增强了高温预测能力,在极具挑战性的Topt > 85°C区间内取得了R2 = 0.63的成绩。这些框架已助力从同源序列数据集中鉴定出热稳定的脂肪酸水合酶,彰显了其在定向酶发现中的实用价值。
基于深度学习的模型,如Preoptem、EpHod和Seq2Topt,整合了序列嵌入和基于注意力的架构。Preoptem在数千条带有实验测定Topt值的酶序列上训练,取得了R2为0.36的成绩,并展示了其从海洋宏基因组数据集中鉴定新型嗜热几丁质酶和嗜冷过氧化氢酶的能力。实验验证确认了约40-60%的预测候选物具有功能活性,突显了该模型在发现温度适应性酶方面的实际效用。特别是EpHod,提供了可解释的残基水平见解,对蛋白质工程很有价值。Seq2Topt则通过提供一个非常适合适配其他预测任务的基础架构,扩展了适用性,并在最适pH和熔解温度预测任务上进行了展示。
双性质预测器,如MeTarEnz,整合支持向量回归和随机森林算法来联合估计最适温度和最适pH。该方法已成功用于鉴定热稳定和嗜碱的酶,包括在高温和碱性工业应用中具有前景的候选酶PersiLipase1。
溶解度预测已超越了传统模型,如Protein-Sol、SoDoPE和SoluProt,这些模型在大肠杆菌表达数据集上训练,准确率在55-65%之间。这些基础性方法为后续旨在提高重组表达成功率的深度学习框架奠定了基础。基于深度学习的模型,如DeepSol、DSResSol和DDcCNN,引入了带有残差连接和空洞连接的卷积神经网络架构,以捕捉与蛋白质溶解度相关的序列特征。这些进展将预测准确率提高至约78-80%,标志着相对于早期机器学习方法的显著改进。
基于Transformer的模型,如NetSolP,在大规模蛋白质序列语料库上训练,将溶解度预测扩展到大肠杆菌表达系统之外,并在多个独立数据集上表现出强大的泛化能力,其中多项预测随后得到了实验验证。最近,包括GraphSol和HybridGCN在内的基于图的方法,整合了接触图信息以捕捉结构背景,在eSol基准测试上取得了超过0.87的AUC值。
这些机器学习模型标志着从生物数据中推断酶学特性的方式发生了重大变革。将这些模型整合到酶挖掘平台中,能够实现快速、基于数据的识别具有功能性的酶,这些酶应用于特定工业、环境和生物医学中。
酶挖掘领域机器学习的当前局限性
尽管机器学习在酶挖掘领域进展迅速,但一些主要挑战依然存在,制约着预测模型的可扩展性、可解释性和泛化能力。其中最为普遍的问题之一是公共数据集中已得到充分表征的酶的不均衡所导致的实验偏差。这种不平衡使学习偏向优势酶家族,并降低了模型对研究不足或新型蛋白质的性能。或许最令人担忧的是,广泛的错误注释甚至会损害家族特异性预测器的效果,导致错误的功能分配,正如Rembeza和Engqvist在羟基酸氧化酶案例中所展示的那样。此外,数据库之间的不一致性和交叉引用错误可能导致条目间的错误数据关联。
在功能分类方面,大多数模型完全依赖于基于序列的表征,这限制了其捕捉酶功能复杂多模态特性的能力,而酶功能依赖于底物、产物、辅因子和环境因素的相互作用。只有少数最近的模型整合了底物或产物信息,其中ESMDance是少数明确学习催化物理化学决定因素的尝试之一。加剧这一局限的是缺乏标准化的基准数据集,这制约了模型评估与比较的一致性和严谨性。许多研究依赖为不相关任务(如变异效应预测)整理的数据集,导致对完整酶功能空间的覆盖有限。
对于基因本体预测任务,GO术语的层级性和相互依存性引入了进一步的复杂性。捕捉跨分子功能、生物过程和细胞组分等领域的术语间关系,需要先进的神经架构和分层损失函数。此外,训练和部署这些深度模型(尤其是结合大规模嵌入和注意力机制的模型)的计算需求仍然不容小觑。
酶-底物特异性预测有其自身的局限。机器学习模型仍然难以泛化到罕见或先前未见过的底物。数据集通常偏向于工业相关的酶-底物组合,掩盖了酶的催化混杂性或新型催化谱。不一致或不完整的注释,特别是缺乏阴性样本或未记录的底物范围,进一步损害了模型的可靠性。
在动力学参数预测方面,多个建模瓶颈依然存在。酶动力学具有环境依赖性,并受辅因子、温度、pH值以及其他高度酶特异性的实验条件调控,这给不同酶类间的泛化带来了挑战。而且,大多数机器学习模型无法获取或未能系统地整合这些元数据。此外,大部分动力学数据仍然稀疏且分散,通常集中在已得到充分研究的酶类周围。高维嵌入虽然强大,但可能妨碍可解释性,使得难以从预测中推导出反应机制层面的见解。
在热稳定性和嗜热性预测领域,训练数据常常偏向常温酶或来自极地及热液环境的嗜极生物。这导致了多模态的数据分布,使得泛化变得复杂。此外,模型可能学到的是分类学或生态学上的代理特征,而非真正的热适应生物物理决定因素。数据集的偏差和有限的分类学代表性同样对嗜酸性和嗜碱性酶的分类构成挑战。许多分类器仅在少数酶家族或微生物宿主上训练,降低了其对宏基因组数据集的迁移能力。而且,仅基于已注释序列训练的模型,在处理无紧密同源物的全新序列时往往表现不佳,这是目前所有预测器面临的普遍情况。
类似的问题也影响着最适温度和最适pH的预测,早期模型具有酶特异性,缺乏普适性。最近整合了生物体元数据的模型,则受限于此类数据在非模式生物中的可获得性。仅依赖序列的模型适用范围广,但预测精度往往较低。即使是具有注意力机制的模型,也受限于罕见酶训练数据的稀疏性。
在溶解度预测方面,现有模型大多基于有限宿主(尤其大肠杆菌)的表达数据训练。因此,它们对其他系统的泛化能力仍不确定。像UniRep-RF这样的工具代表了向宿主特异性建模迈出的一步,但仍需更广泛的验证。此外,计算机预测与体外实验结果之间的差异,突显了对更具代表性的训练数据集和实验元数据的必要性。虽然NetSolP和PPSol等深度模型提高了准确性,但其高计算成本可能限制了常规部署。
为应对这些局限,未来的工作应优先考虑以下几点:
构建跨酶类和条件、更大规模、更多样化和更平衡的数据集; 整合包括结构、表达系统和环境元数据在内的多模态数据源; 以及开发能够在低数据状态下运行的、可解释、高效且可迁移的机器学习架构。
结合深度嵌入与经典机器学习分类器的混合建模方法,以及基于注意力的可解释性框架,为未来提供了有前景的方向。随着这些挑战逐步得到解决,机器学习模型将日益成为实现可扩展、准确且可解释的酶发现与表征不可或缺的工具。
酶挖掘的数据驱动框架:示范性案例
通过实现对特定催化功能酶的优先级排序与发现,基于机器学习的策略能够应对传统筛选方法的固有局限,例如对可培养生物的依赖、低通量以及注释偏差。本节重点介绍了一些典型案例研究,展示了机器学习模型如何成功整合到酶挖掘流程中,聚焦于塑料降解、霉菌毒素解毒、萜类生物合成以及噬菌体裂解酶鉴定等应用。这些例子共同突显了机器学习在快速探查庞大序列数据库、揭示新型酶功能以及指导实验验证方面的强大能力。
在塑料降解领域,Danso等人开发了一个基于支持向量机的模型来识别PET水解酶,该模型在经整理的、经实验验证的序列数据集上训练,展示了稳健的预测性能,促进了具有潜在PET降解活性的候选酶的检测。在此基础上,Zhang等人采用了结合结构域特异性基序的隐马尔可夫模型方法,提高了预测的特异性和功能注释准确性,进一步增强了PET水解酶预测的精度。最近,Medina-Ortiz等人引入了一个结合蛋白质语言模型与生成式设计的AI驱动框架,以加速塑料降解酶的发现与工程设计。通过对预训练模型进行PET特异性微调,作者识别出了超过6,000个候选水解酶,其中许多在计算中显示活性,平均分类准确率超过89%,展现了机器学习在扩展PET生物催化剂发现方面的前沿作用。
扩展到更广泛的塑料降解酶类别,Jiang等人实现了一个基于XGBoost的分类器,用于识别能降解多种聚合物(包括聚乙烯和聚苯乙烯)的酶。该模型实现了高预测精度,并有助于提名候选酶进行实验测试。在后续研究中,Jin和Jia应用该框架鉴定了一种新型酯酶,并确认其具有聚苯乙烯微塑料降解活性,从而验证了机器学习引导酶发现的实际效用。
在霉菌毒素降解酶方面,Zhang等人提出的PU-EPP模型采用了正样本-无标签学习框架来预测酶-底物相互作用,特别针对赭曲霉毒素A和玉米赤霉烯酮。该模型在包含超过17万种酶和60多万个酶-底物对的数据集上训练,通过加权采样策略解决了类别不平衡问题。引人注目的是,预测得分最高的20种酶中有15种被实验证实可降解OTA和ZEA,其中6种在3小时内降解率超过90%,证明了该模型的精确度和功能相关性。
Samusevich等人发现萜类合酶的研究,展示了蛋白质语言模型、结构预测和机器学习分类之间的协同作用。该模型利用在整理的TPS序列和嵌入表征上训练的随机森林分类器,在TPS识别和底物特异性预测方面均实现了高精度。通过使用Uniref 50数据库进行实验验证,获得了17个新型TPS候选物,其中7个被证实具有酶活性。
在噬菌体裂解酶领域,Fu等人开发了DeepMineLys,这是一个结合了双轨嵌入的卷积神经网络模型,可同时捕捉物理化学特征和序列衍生特征。应用于人类微生物组数据集,该模型在独立验证集上取得了84%的F1分数。在624个预测的非冗余裂解酶候选物中,有11个被证实具有酶活性,其中一种变体的活性是鸡蛋清溶菌酶的6.2倍。
这些案例研究说明了机器学习在将酶挖掘从劳动密集型、低通量的过程转变为数据驱动、可预测且可扩展的框架方面日益重要的作用。通过整合多样化数据集、复杂模型架构和严格的实验验证,能够在广阔的序列空间中发现功能新颖的酶。随着这些方法不断演进,特别是通过融入多模态学习、迁移学习和可解释人工智能,酶发现的格局有望迅速扩展,为解决工业、制药和环境挑战提供强大的生物催化工具。
通过机器学习引导的挖掘平台实现自主酶发现
本章介绍一种模块化、机器学习引导的酶挖掘策略,该策略整合了表征学习、功能分类和性质预测,以实现候选酶的自主发现。我们概述了提出的流程,并探讨了要实现完全自动化的酶挖掘工作流所必须解决的关键挑战——例如数据质量、可解释性和泛化能力。
机器学习引导的酶挖掘框架
为解决传统酶挖掘工作流的局限性,并克服基于机器学习的预测策略中已发现的挑战,我们提出一个集成且模块化的框架。该框架利用机器学习领域的进展,实现从基因组和宏基因组数据集中进行可扩展、数据驱动的功能酶发现(图4)。该方法不仅旨在提高预测准确性和泛化能力,还致力于增强候选酶优先级排序、辅助实验设计,并提供与酶工程流程的集成接口。
图4. 机器学习引导的自动化酶挖掘与优先级排序框架。该流程始于构建目标酶库,通过结构、功能和序列查询从基因组与宏基因组数据库中整合而成。序列与结构层面的表征——借助聚类、系统发育图谱或序列相似性网络——实现了多样性的可视化与候选簇的识别。预训练的蛋白质语言模型用于生成嵌入表征,并将其投射到潜在空间中,以检测尚未充分探索或功能分化的区域。潜在空间聚类支持候选扩展,并引导预测模型应用于功能注释和性质评估。这些预测结果输入到一个多目标排序系统中,该系统基于新颖性、催化混杂性及所需特性对酶进行优先级排序。排名最高的候选酶被选出进行实验验证,其实证结果将反馈回系统以优化模型性能,从而建立一个为可扩展性和精确性优化的闭环发现框架。
该框架始于构建一个定制的酶库,通过根据结构、功能或序列标准查询蛋白质数据库或注释过的基因组及宏基因组数据集来创建。利用基因组挖掘工具和特定领域过滤器,此步骤能够提取与特定生物催化目标相契合的全面酶序列集合。当应用于宏基因组时,此策略能够触及未培养或嗜极生物,提供了一个巨大且未开发的酶多样性来源。序列检索可通过基于同源性的搜索、结构域架构,或利用由结构预测或宏蛋白质组学证据丰富的AI整理知识库来增强。
随后的酶库表征通常依赖于序列相似性网络、系统发育树和基于图的聚类方法,以可视化多样性、识别进化关系并减少大数据集内的冗余。这些基于网络的表征使研究人员能够评估已知酶空间的覆盖范围,并精确定位可能蕴含新功能的潜在功能异常值或未探索的簇。
为增强对非典型或功能多样的候选酶的发现,近期研究引入了源自预训练蛋白质语言模型生成的嵌入的潜在空间表征。与传统的序列比对不同,这些嵌入编码了序列与功能之间的高阶关系,使得细微的相似性和进化模式能够在降维流形中显现。潜在空间投影通过相似性搜索、基于密度的聚类或流形探索,促进了候选酶的扩展,从而揭示了那些位于蛋白质序列图谱中分布稀疏或功能模糊区域的酶。此类表征将经典的比较分析与现代机器学习方法连接起来,为大规模探索酶多样性提供了一个统一框架。
潜在空间聚类在识别训练数据中代表性不足或远离已知功能类别的序列组方面起着关键作用。此阶段支持发现可能具有新颖或混杂活性的酶,成为生物催化创新的储备库。
在扩展和聚类之前或之后,酶库会经过一系列功能分类模型的筛选,包括EC编号、GO术语和底物特异性预测。这些基于Transformer、图神经网络和混合模型等多种机器学习架构构建的分类器,提供了层次化和多方面的注释,使得能够快速筛选跨生化领域的候选功能。同时,基于机器学习的评估器被用于预测酶的性质,如最适温度、pH、热稳定性、溶解度和动力学参数。功能分类器和性质评估器的输出被整合,构建一个由多目标评分和优先级排序方法指导的候选酶排序系统。该系统根据新颖性、预测的混杂性以及与用户定义的应用标准的匹配度对酶进行优先级排序。通过平衡这些多项目标,该框架能够系统地识别出既具有功能相关性又具有工程潜力的候选酶。此阶段也有助于识别可能受益于定向进化或理性设计策略的酶家族。
最终的候选酶选择由潜在空间覆盖度和预测性能共同决定。通过优化多样性和预测功能,选出的酶集合最大化了实验成功的可能性。这些候选酶将进行体外验证,包括表达、纯化和生化测定。可获得的实验数据会被重新整合到流程中,以优化模型性能并指导未来的迭代,从而建立一个增强鲁棒性和适应性的闭环反馈系统。结合贝叶斯推理与高斯过程模型的主动学习框架,可以在有效平衡蛋白质设计中探索与利用的同时,精炼机器学习模型。此策略已在多个药物发现工作流中成功实施和验证,展示了其数据高效优化的潜力。
这种机器学习引导的策略特别适合与酶工程工作流集成。通过此流程发现的候选酶可能具有不完美的性状,不适合直接应用,但蕴含着可通过理性或数据驱动的优化来挖掘的潜力。例如,预测可催化目标反应但缺乏热稳定性的酶,可以通过诱变或基于结构的重新设计来靶向增强其热稳定性。如此,酶挖掘和工程在一个统一的、机器学习增强的发现架构中,作为互补的过程连接起来。
机遇与现存挑战
将机器学习整合到酶挖掘流程中,标志着具有特定性质生物催化剂的发现与表征取得了重大进展。尽管基于序列同源性和手动筛选的传统策略已提供了有价值的见解,但其解析遥远进化关系的能力有限,且难以应对日益增长的基因组和宏基因组数据规模。相比之下,机器学习能够从复杂的数据空间中提取功能特征,提供能够推断酶活性、特异性及理化性质的预测框架。然而,通向完全自动化、机器学习引导的酶挖掘系统的道路,既带来了重大机遇,也伴随着技术挑战。
一个关键机遇在于,机器学习模型能够以前所未有的规模,根据候选序列展现出理想生化属性(包括底物谱、催化转换率、热稳定性、最适pH等)的可能性对其进行优先级排序。通过整合源自序列、结构和分子描述符的多模态表征,这些模型使得为工业、制药和环境应用进行靶向酶选择成为可能。最近的案例如DeepMineLys和SEP-DNN展示了预测框架如何识别出后来被实验证实的新型酶。同样,GT-Predict和AdenylPred等工具凸显了以底物为中心的特征如何提高功能解析度,从而扩展了对特征不明的酶家族和微生物类群的探索。
尽管取得了这些进展,当前模型仍受限于数据的可获得性和偏差。训练集仍由少数已被充分研究的生物体主导,导致对系统发育上较远的酶的泛化能力降低。这种偏差在底物特异性建模中尤为突出,因为可靠的阴性数据稀缺。PU-EPP等正样本-无标签学习策略提供了有前景的解决方案,但在防止过拟合和数据泄露方面仍面临挑战。与此同时,对已整理但冗余数据库的依赖加剧了知识鸿沟,使得研究重点集中于典型酶功能,而忽略了具有新颖催化机制或生态相关性的活性。
另一项前沿挑战在于将蛋白质的静态表征与其动态行为联系起来。将构象柔性、别构运动和能量波动整合到机器学习框架中,可显著提高预测模型的现实性。近期的一些方法,例如在生物物理模拟数据上预训练Transformer架构的METL,展示了在热稳定性和催化活性预测方面,尤其是在低数据状态下,泛化能力的提升。同样,基于流的生成模型如AlphaFlow和ESMFlow,能够学习以序列为条件采样构象集合,提供了一种比完整分子动力学模拟更高效的计算方法来近似模拟蛋白质运动。ATLAS和mdCATH等公共资源进一步贡献了原子水平的柔性数据,这些数据可作为此类物理感知蛋白质语言模型的有价值先验知识。将这些动态见解嵌入主动学习或自驱动实验室框架中,可能使自动化流程能够基于预测的功能和结构适应性迭代优化候选酶选择,从而将机器学习引导的酶挖掘推向闭环实验自主性。
可解释性仍然是一个并行挑战。虽然Transformer和基于图的架构显著提高了预测准确性,但其高维嵌入通常缺乏生物学透明度。像DeepECtransformer和PFresGO等模型中的注意力机制提供了残基层面的局部见解,然而,将这些信号转化为对催化机理理解的统一框架仍然缺失。开发能够平衡可解释性与预测能力,并能与实验反馈无缝对接的混合架构,对于构建值得信赖的自主发现系统至关重要。
朝向此类系统的进展将依赖于几个互补的方向。扩展和多样化训练数据集,特别是通过大规模的宏基因组注释,将提高模型的鲁棒性并减少分类学偏差。能够联合预测功能、动力学和稳定性的多任务与多性状学习架构可能会增强一致性和效率。将环境、基因组和结构元数据整合到预测框架中,将进一步支持筛选出不仅具有功能,而且在实验上易于操作和优化的酶。
深度学习、以数据为中心的模型优化和高通量实验自动化的融合,正将酶挖掘引向自驱动的发现循环。在这些自主生态系统中,预测模型将不仅仅进行分类或优先级排序,还将积极指导合成、测试和重新设计周期。因此,解决在数据质量、可解释性和基准测试方面尚存的挑战,对于充分发挥机器学习驱动的酶挖掘在扩展功能性和工业适用性强之生物催化剂可及空间方面的潜力至关重要。
展望与未来前景
机器学习与酶挖掘工作流的整合,正在重新定义工业、环境及生物医学领域中生物催化剂的发现与功能表征。机器学习模型现已能有效辅助EC分类、基因本体注释、底物特异性推断,以及动力学参数、溶解度和稳定性等性质的预测。从经典算法到深度神经网络与蛋白质语言模型,这些方法加速了具有特定性质酶的识别与优化。
下一个前沿领域在于机器学习、高通量实验与自主决策系统的融合。新兴的AI科学家——即结合大语言模型与专业计算工具的智能体框架——正开始自动化研究设计与数据解读。例如,“虚拟实验室”和“蛋白质智能体”展示了多智能体协作在蛋白质发现中的应用;而“酶协科学家”和“文献智能体”等系统则实现了数据提取与文献挖掘的自动化,从而优化了模型训练与数据集构建过程。
智能体系统与大语言模型在科学编程环境中的整合,也正在推动定制化模型开发的普及。这对于数据稀缺的生物化学领域尤其重要,因为聚焦反应机制或特定家族的模型往往比通用预测器表现更优。
与此同时,自驱动实验室正将机器人自动化与智能实验设计相连接。这些平台能够自主执行实验、分析结果并在闭环中迭代,极大地缩短了“设计-构建-测试-学习”的周期。例如SAMPLE工具展示了全自动蛋白质工程工作流,而更广泛的综述则强调了自驱动实验室在分子发现中日益重要的作用。这类系统的成功依赖于可靠的实验室自动化、元数据捕获,以及通过贝叶斯优化和主动学习实现的适应性规划,从而实现对生化设计空间的可扩展且可重复探索。
随着自动化技术的扩展,标准化基准测试变得日益关键。由社区推动的数据集,如EC-Bench、CARE和PEER,为不同架构和数据集之间的公平比较与可衡量的进展提供了基础。
最终,酶挖掘的未来将由智能计算与自主实验的协同融合所定义。随着预测准确性、可解释性和机器人精度的共同提升,酶的发现过程将从人类主导转变为由人工智能协调的生态系统——能够进行十年前难以想象的规模化假设、测试与学习。这一转变使机器学习引导的酶挖掘不仅成为一项支持性技术,更成为下一代生物技术的驱动范式,加速将分子层面的洞见转化为整个酶学领域的功能创新。