图4。BLASTp与CLEAN在新生酶序列分类上的比较。BLASTp执行局部序列比对,只提供局部相似性信息,而不捕获新序列的完整上下文。相比之下,CLEAN利用特征提取过程来分析整个序列,从而实现全局比较和提取隐藏的序列信息。将从头序列与数据库进行比较,其中CLEAN能够通过基于提取特征的欧几里得距离计算来区分不同的EC数。
图6。dCA12_2和dCA23_1的酶学特性及蛋白表达。dCA12_2和dCA23_1的CA活性(下)和相应的蛋白表达量(上),W和S分别代表全细胞和可溶性粗蛋白。
一、背景
本文研究背景:设计全新酶的过程复杂且具有挑战性,尤其是在保持酶活性方面。
对相关研究工作的简述及评价:
研究聚焦于酶的基序设计,以识别关键结构域。 采用分子对接技术揭示蛋白质结构。 开发了GRACE工作流程,首次实现了全新酶的自动化重构与创建。 GRACE集成了RFdiffusion、ProteinMPNN、CLEAN等工具,涵盖结构生成、序列解析、酶分类及溶解度分析。 本文创新动机:通过GRACE工作流程,显著简化酶工程的实验过程,并为理性蛋白质设计开辟新途径。
二、方法
本文提出的方法为GRACE(Generative Redesign in Artificial Computational Enzymology),旨在自动化设计和重构de novo酶。该方法的核心概念包括酶的结构生成、序列解释、分类及其溶解性分析。以下是GRACE方法的主要步骤:
结构生成
:使用RFdiffusion生成酶的三维结构。 序列解释
:应用ProteinMPNN对生成的结构进行序列解读。 酶分类
:利用CLEAN对酶进行分类。 溶解性分析
:评估所设计酶的溶解性。 分子动力学模拟
:对选定的酶进行分子动力学模拟以验证其稳定性和活性。
通过上述步骤,研究团队从10,000个蛋白候选中筛选出与碳酸酐酶相关的两个基因序列(dCA12_2和dCA23_1),并通过实验验证其良好的溶解性和活性(400 WAU/mL)。该工作流程有望显著简化酶工程的实验过程,并为理性蛋白设计开辟新途径。
三、实验
实验结果概括
数据集
候选蛋白数量
: 10,000个蛋白候选者 选择的基因序列
: 2个与碳酸酐酶相关的基因序列 基因序列名称
: dCA12_2 和 dCA23_1
实验指标
酶活性
: 400 WAU/mL 溶解性
: 经过分析确认两种新酶具有良好的溶解性 底物-活性位点相互作用
: 显示出良好的相互作用
相关概念与定义
GRACE
: 一种自动化工作流程,用于重新设计和创建de novo酶 RFdiffusion
: 用于结构生成的工具 ProteinMPNN
: 用于序列解释的工具 CLEAN
: 用于酶分类的工具 分子动力学模拟
: 用于分析酶的动态行为
总结
本研究通过GRACE工作流程成功筛选出两种新型碳酸酐酶,展示了该方法在酶工程和理性蛋白设计中的潜力。
四、结论
贡献点
GRACE工作流程: 本研究首次提出了GRACE(Generative Redesign in Artificial Computational Enzymology),一个自动化的工作流程,用于重新设计和创建de novo酶。该流程集成了多种先进技术,包括RFdiffusion(结构生成)、ProteinMPNN(序列解释)、CLEAN(酶分类)以及后续的溶解度分析和分子动力学模拟。
实验验证: 通过GRACE工作流程,从10,000个蛋白质候选中筛选出与碳酸酐酶相关的两个基因序列(dCA12_2和dCA23_1),并通过实验验证确认这两种新酶具有良好的溶解度和活性(400 WAU/mL),显示出优良的底物-活性位点相互作用。
推动酶工程: 该研究为酶工程提供了新的思路,能够显著简化实验工作,推动理性蛋白质设计的新方向。
局限性
实验范围: 尽管研究中筛选了10,000个候选蛋白,但仍然可能存在未被考虑的其他潜在酶,限制了结果的普适性。
活性验证: 目前仅验证了两个新酶的活性,尚需更多的实验数据来全面评估GRACE工作流程的有效性和可靠性。
深度学习模型的局限性: GRACE依赖于深度学习模型的准确性和可靠性,模型的训练数据和算法的选择可能影响最终结果。
总结结论
本研究通过开发GRACE工作流程,成功实现了de novo酶的设计与验证,展示了深度学习在酶工程中的应用潜力。尽管存在一些局限性,如实验范围和模型依赖性,但GRACE为未来的蛋白质设计和酶工程提供了新的工具和方法,可能会在生物催化和相关领域产生深远影响。
本文中使用的具体计算方法包括:
蛋白质生成模型:使用了Progen2、EvoDiff、DPLM、RFdiffusion、ProteinMPNN和CarbonDesign等模型来评估de novo蛋白质生成。其中,RFdiffusion用于生成蛋白质骨架,而ProteinMPNN或CarbonDesign则作为蛋白质序列解码器。
酶活性预测模型:提到可以通过引入酶活性预测模型(如DLKcat)来进一步提高工作流程的稳健性。
结构预测:使用trRosetta进行蛋白质结构预测,并在Yang-Server上启用PDB模板模式。
分子动力学模拟:使用NAMD进行分子动力学模拟,模拟条件包括273 K的温度和0.05 M的Zn²⁺。模拟过程包括能量最小化、NVT和NPT平衡等步骤。
分子对接:构建酶-配体分子模型,使用CHARMM-GUI进行参数化,并使用TIP3P水模型进行溶剂化。
DNA合成与质粒构建:使用Integrated DNA Technologies (IDT)设计和优化DNA序列,并使用pET28a-placI-sfGFP载体进行构建。
蛋白质表达与分析:使用SDS-PAGE分析蛋白质表达,并通过ImageJ量化蛋白质溶解度。
酶活性表征:使用改良的Wilbur-Anderson (WAU)测定法量化碳酸酐酶活性。
这些计算方法和细节为de novo酶的设计和表征提供了基础,确保了实验的有效性和可靠性。