ByteDance Research登Nature子刊：AI+冷冻电镜，揭示蛋白质动态

图 4 EMPIAR-10073 结果

大型复合物（残基数量约 10,000）

CryoSTAR 在多个公开数据集（EMPIAR）的冷冻电镜实验数据上得到了验证。对于酵母预催化 B 复合物剪接体（EMPIAR-10180），使用 PDB: 5NRL 作为先验结构，cryoSTAR 成功揭示了 SF3b 和解旋酶区域的构象变化，其结果与其他方法一致，并且生成的粗粒度模型在电子密度图中得到了充分验证，展现出合理的运动模式。对于 U4/U6.U5 三核糖核蛋白（EMPIAR-10073），以 PDB: 5GAN 为参考结构，cryoSTAR 同样解析了头部结构域的动态变化，结果与现有方法的发现一致。

图 5 EMPIAR-10059 结果

图 6 EMPIAR-10827 结果

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650942721&idx=2&sn=46e92e291de4b4c2e84653daed604e43&chksm=84e7e97fb39060693788909e87ca5564198a19dede96165c35c3cb15d3f13ad720072bec07af&token=1483518759&lang=zh_CN#rd

膜蛋白（氨基酸数量约 2,000）

图 7 CryoSTAR 与 CryoDRGN 在 EMPIAR-10059 上的结果对比

对于 TRPV1 通道蛋白（EMPIAR-10059），使用 PDB: 7RQW 作为参考先验原子模型，cryoSTAR 发现了蛋白外周可溶结构域的微妙而平滑的运动，每个亚基的运动可通过不同主成分可视化。研究还表明结构正则化在揭示膜蛋白动力学方面具有关键作用，相比之下，没有结构先验的方法如 cryoDRGN 在膜蛋白的动态解析方面存在不足。

单链蛋白（氨基酸数量约 1,000）

图 8 CryoSTAR 与 CryoDRGN、3DFlex 在 EMPIAR-10059 上的结果对比

对于毒素蛋白 α-LCT（EMPIAR-10827），cryoSTAR 揭示了两种类型的运动，与离散 3D 分类发现的两种构象相吻合，且生成的粗粒度原子模型合理，与密度图拟合良好。结构正则化在这个具有连续异质性的小蛋白中效果显著，相比其他方法如 cryoDRGN 和 3DFlex，cryoSTAR 生成的密度图更连续，能有效避免密度图中的伪影。

总结：利用跨模态数据解析自然现象

字节跳动 ByteDance Research 提出的新的结合结构先验的方法（CryoSTAR）显著提升了冷冻电镜（Cryo-EM）在动态构象解析中的应用潜力。通过利用原子结构模态先验作为约束，同时输出两种模态的解析结果，这一创新方法在技术上展示了其独特的优势，并为科学研究打开了新的大门。

该研究在冷冻电镜动态解析领域的重要意义不可忽视。传统的冷冻电镜方法由于其分辨率和解析能力的限制，常常难以捕捉到生物大分子复杂的动态变化。而此次引入结构先验的策略，极大地增强了动态构象解析的精度与可靠性，使我们能够更深入地理解生物大分子的动态行为及其机制。

这种方法的潜在价值在生命科学和制药领域尤为突出。生物大分子的动态解析是理解其功能机制的关键，如蛋白质的折叠、酶活性部位的变化、受体 - 配体的结合模式等。这些动态过程与众多生理与病理现象息息相关，例如细胞信号传导、代谢调控以及疾病发生机制等。因此，准确解析这些动态过程不仅能帮助揭示生物学基本问题，还能为发现新型药物靶点和优化药物设计提供重要依据。在制药领域，这一方法同样具有广泛的应用前景。通过更高精度地捕捉蛋白质和其他生物大分子的动态变化，研究人员可以更有效地筛选潜在药物、设计更具针对性的药物分子，进而提高药物研发的效率和成功率。例如，这一方法可以帮助解析癌症、神经退行性疾病等重大疾病相关蛋白质的动态构象变化，为开发新药物提供详细的分子级信息。

总而言之，ByteDance Research 的这一创新研究不仅代表了冷冻电镜动态解析技术的最新进展，更为生命科学和制药领域带来了巨大的潜在价值。期待未来该方法能在更多研究和实际应用中得到验证和推广，为生命科学研究以及药物研发带来新的突破和希望。

ByteDance Research AI 制药团队持续在 AI for Science 方向发力

ByteDance Research AI 制药团队致力于将人工智能技术应用于科学研究与药物开发。团队在生成式蛋白质设计、蛋白质构象预测以及冷冻电镜解析等领域取得了业界瞩目的成果。

蛋白质设计：团队研发了基于大规模蛋白质语言模型的序列设计方法 LM-Design [1]，大幅提高了蛋白质序列设计的准确度与效率；研发了结合扩散模型与语言模型的新一代蛋白质基础模型 DPLM 1/2 [2, 3]，首次全面统一了蛋白质建模、理解与生成；研发了基于偏好优化的抗体设计方法 AbDPO [4]，能够设计出同时满足多种性质和能量要求的抗体。
蛋白质动态构象预测：团队研发了 ConfDiff [5] 等模型，准确预测了蛋白质的构象变化，加深了对蛋白质生物过程的理解，还为新药研发提供了可靠的理论基础。
冷冻电镜解析：团队研发了 CryoSTAR [6] 电镜解析工具，结合人工智能技术和高分辨率成像，有助于揭示复杂生物分子体系的构象特征和动态变化；研发了第一个蛋白质密度基座模型 CryoFM [7]，为下一代电镜解析算法奠定了基础。

团队的研究成果多次发表在 Nature 子刊、ICML、NeurIPS、ICLR 等顶级学术会议上，得到学术界和业界的广泛认可。

参考文献

[1] Zheng Z, Deng Y, Xue D, et al. Structure-informed language models are protein designers [C]//International conference on machine learning. PMLR, 2023: 42317-42338.

[2] Wang X, Zheng Z, Ye F, et al. Diffusion Language Models Are Versatile Protein Learners [C]. International Conference on Machine Learning, 2024.

[3] Wang X, Zheng Z, Ye F, et al. DPLM-2: A Multimodal Diffusion Protein Language Model [J]. arXiv preprint arXiv:2410.13782, 2024.

[4] Zhou X, Xue D, Chen R, et al. Antigen-Specific Antibody Design via Direct Energy-based Preference Optimization [C]. NeurIPS, 2024.

[5] Wang Y, Wang L, Shen Y, et al. Protein Conformation Generation via Force-Guided SE (3) Diffusion Models [C]. International Conference on Machine Learning, 2024.

[6] Li Y, Zhou Y, Yuan J, et al. CryoSTAR: leveraging structural priors and constraints for cryo-EM heterogeneous reconstruction [J]. Nature Methods, 2024: 1-9.

[7] Zhou Y, Li Y, Yuan J, et al. CryoFM: A Flow-based Foundation Model for Cryo-EM Densities. arXiv preprint arXiv:2410.08631, 2024.