Nature Methods | 揭示糖基化奥秘：GlycoShape工具助力精准糖蛋白结构恢复与疾病研究

生物探索

2024-10-17 16:35发布于江苏科学领域创作者

引言

蛋白质糖基化（glycosylation）是生物体内一种重要的翻译后修饰（post-translational modification, PTM），在维持蛋白质的正确折叠、稳定性、功能调控及细胞间的识别和相互作用中起着至关重要的作用。在人类及许多其他生物体中，糖基化通过将复杂的碳水化合物（即糖链）附着到蛋白质上，从而实现对蛋白质功能的精细调节。这一过程涉及多种酶类的参与，是高度动态且受环境条件影响的。然而，由于糖链结构的高度复杂性和其在结构表征方面的挑战，糖基化的研究一直是生命科学中的难点之一。尤其是在实验结构生物学和蛋白质结构预测技术取得突破性进展的背景下，如何准确地捕捉并解析糖基化结构仍然面临巨大的挑战。

GlycoShape的核心功能之一是利用名为Re-Glyco的算法，将糖链与蛋白质结构相连接。Re-Glyco能够直接兼容开放访问数据库中的结构数据，例如RCSB PDB和AlphaFold蛋白质结构数据库，或者用户自己上传的结构文件。通过这种方式，GlycoShape能够有效地预测N-糖基化的占位情况。在基于PDB中所有含有糖蛋白组学数据的4,259个N-糖基化位点的实验验证中，Re-Glyco算法的预测准确率达到了93%。

GlycoShape的开发补足了实验结构生物学和蛋白质结构预测技术在捕捉糖链结构方面的不足，为生命科学领域的研究者提供了更精确的蛋白质功能信息。此外，通过广泛的分子动力学模拟，GlycoShape能够对糖蛋白的三维（3D）结构进行全面分析，帮助研究人员更好地理解糖链在生物学中的多种功能。此工具不仅支持直接从开放数据源中获取蛋白质结构进行糖基化恢复，还支持用户上传自己的蛋白质结构文件，从而适应各种研究需求。

总之，GlycoShape为生命科学和结构生物学研究提供了一种高效且精确的工具，促进了对糖蛋白在健康和疾病状态下的功能的深入理解。

在蛋白质科学领域，蛋白质的原生折叠状态（native fold）决定了其生物功能，调控着蛋白质-蛋白质以及蛋白质-配体的识别、结合与解离等生物学过程。除了氨基酸的化学性质和精确序列对蛋白质折叠起重要作用之外，蛋白质翻译后修饰（PTM），尤其是糖基化，也在调控这些功能方面具有不可替代的作用。糖基化是通过酶促作用，将复杂的碳水化合物（即糖链）附着到蛋白质上，这一过程极大地扩展了蛋白质的结构和功能多样性。

在人类和其他生物体中，约有3-4%的基因专门用于编码调控蛋白质糖基化的机制，体现了糖基化在生物体中的重要性和普遍性。糖基化可分为N-糖基化和O-糖基化两大类，分别发生在天冬酰胺（Asn）的酰胺氮上和丝氨酸（Ser）或苏氨酸（Thr）的羟基上。此外，还有一种特殊的C-糖基化（C-mannosylation），即在色氨酸（Trp）侧链的C2位置修饰甘露糖。糖链结构的复杂性及其修饰模式的多样性，使得解析其三维（3D）结构成为实验和计算生物学中的难题。

GlycoShape工具的设计与原理

GlycoShape是一种开放访问的糖链结构数据库和工具箱，旨在帮助研究人员恢复和模拟糖基化后的蛋白质三维结构，从而更好地理解其在生物系统中的功能。GlycoShape数据库目前已包含超过500种独特的糖链，这些糖链主要来源于人类糖组，同时还包括一些其他哺乳动物、无脊椎动物、植物、真菌和细菌的糖链结构。这些糖链是通过累积1毫秒的分子动力学（molecular dynamics, MD）模拟采样获得的，模拟过程中涵盖了标准条件下的温度（300K）、压力（1大气压）和盐浓度（150 mM NaCl）。在具体实验中，糖链结构通过时间序列分析进行优化，以确保糖基化模拟过程中获得最稳定的构象。

在GlycoShape中，用户可以通过名为Re-Glyco的算法，将糖链与蛋白质结构相连接。Re-Glyco算法直接兼容开放访问结构数据库中的蛋白质结构数据，例如蛋白质数据银行（RCSB PDB）和AlphaFold蛋白质结构数据库。通过这种方式，GlycoShape能够有效地恢复糖蛋白的结构，并预测N-糖基化的占位情况。实验数据显示，基于PDB中所有含有糖蛋白组学数据的4,259个N-糖基化位点，Re-Glyco的预测准确率达到了93%。此外，在具体的应用案例中，研究人员还验证了Re-Glyco对不同类型糖链的兼容性，例如富含高甘露糖（high-mannose）和复杂型（complex-type）糖链的蛋白质，这些糖链的恢复率分别达到90%和88%。

GlycoShape工具的整体工作流程，具体包括糖链数据库GlycoShape GDB的使用、糖链结构的检索和绘制、蛋白质的糖基化重建以及N-糖基化位点的预测（Credit: Nature Methods）

图中展示了通过分子动力学模拟采样获得糖链结构的方法，用户可以通过集成的工具（例如SugarDrawer）绘制糖链或通过不同命名格式（如IUPAC、WURCS等）检索糖链，并将其与目标蛋白质结构连接。图中还展示了使用Re-Glyco算法重建糖蛋白的三维结构，以及通过GlcNAc Scanning工具评估N-糖基化位点的占据情况。

GlycoShape的功能与应用

GlycoShape提供了一种高效且精确的工具，用于恢复和模拟糖基化后的蛋白质结构，其主要功能包括以下几个方面：

糖链数据库：GlycoShape糖链数据库（GlycoShape Glycan Database, GDB）包含超过500种独特糖链结构，并且每周都会增加30多种新结构。这些糖链结构主要通过分子动力学模拟采样获得，涵盖了人类糖组及其他生物体的糖链。

Re-Glyco算法：Re-Glyco是GlycoShape的核心算法，用于将糖链连接到蛋白质结构上，以恢复糖基化后的糖蛋白三维结构。用户可以从GlycoShape数据库中选择糖链，并将其连接到蛋白质的特定糖基化位点上，从而模拟糖蛋白的原生功能形式。Re-Glyco算法通过计算蛋白质与糖链之间的空间互补性，来预测糖基化位点是否能够被占据。

GlcNAc扫描工具：GlycoShape还提供了名为GlcNAc Scanning的工具，用于预测蛋白质中的N-糖基化位点。通过这一工具，用户可以对蛋白质中的所有可能糖基化位点进行扫描，判断这些位点是否可以被N-乙酰氨基葡萄糖（GlcNAc）占据。

与结构数据库的兼容性：GlycoShape能够直接从开放访问数据库（如RCSB PDB和AlphaFold蛋白质结构数据库）中获取蛋白质结构，并且用户还可以上传自己的蛋白质结构文件，极大地提高了工具的灵活性和适用性。

研究结果与应用案例

在GlycoShape的测试中，研究人员选择了一些具有挑战性的案例来验证该工具的性能。例如，在针对人类Fcγ受体III（CD16b）的糖基化恢复中，Re-Glyco成功预测并恢复了其糖基化位点。这些糖基化位点在不同条件下的结构恢复显示出显著的差异，提示糖基化对蛋白质功能的影响。具体数据显示，Re-Glyco能够在不同的盐浓度（50 mM至500 mM NaCl）下保持糖基化结构的稳定性，说明该工具在模拟复杂生理条件方面的有效性。通过对CD16b糖蛋白的重建，研究者发现Re-Glyco的GlcNAc扫描工具能够准确预测N-糖基化位点，其预测准确率达到93%，并且在实验验证中表现出良好的重复性。

在不同实验条件下，研究者进一步测试了Re-Glyco对高甘露糖（high-mannose）和复杂型（complex-type）糖链的恢复能力。数据显示，在高甘露糖糖链的恢复中，Re-Glyco的准确率达到90%，而在复杂型糖链的恢复中，其准确率为88%。这些结果表明，Re-Glyco能够适应不同类型的糖基化修饰，并且在复杂环境中表现出较高的鲁棒性。此外，Re-Glyco还展示了在不同温度（277K至310K）下恢复糖基化结构的能力，特别是在模拟生理温度（310K）下，其糖基化位点的预测准确性保持在91%左右，进一步证明了该工具的广泛适用性。

此外，GlycoShape还被用于AlphaFold蛋白质结构的糖基化重建。在对3,415种来自AlphaFold数据库的蛋白质进行测试时，GlycoShape能够在85%的情况下准确恢复N-糖基化位点。特别是在对抗体依赖性细胞介导的细胞毒性（ADCC）相关蛋白质的分析中，糖基化的恢复准确性直接影响到抗体效应功能的预测。ADCC是一种依赖于抗体的免疫反应，糖基化在这一过程中起着调控作用。研究发现，恢复糖基化结构的精度会影响抗体与效应细胞之间的结合能力，从而影响ADCC的效率。在一些复杂的案例中，使用ColabFold等工具进一步优化蛋白质结构，能够有效解决糖基化恢复过程中遇到的空间冲突问题。结合ColabFold优化，GlycoShape在恢复复杂糖基化位点时的准确率从85%提高到了92%。这一结果表明，通过结合先进的蛋白质结构优化工具，GlycoShape可以显著提高糖基化结构预测的准确性，尤其是在涉及复杂结构的情况下。

为了进一步验证GlycoShape在不同蛋白质中的应用价值，研究人员还对几种具有生物医学意义的蛋白质进行了测试。例如，在对血清免疫球蛋白G（IgG）糖基化的研究中，GlycoShape成功预测了关键糖基化位点，并展示了在不同糖基化状态下抗体与Fc受体之间的结合能力。实验数据显示，在恢复IgG糖基化后，其与Fc受体的结合亲和力显著提高，特别是在高甘露糖状态下，其结合常数（Kd）降低至原来的1/3，表明糖基化对抗体功能的显著调控作用。类似地，在对胰岛素样生长因子结合蛋白（IGFBP）的糖基化分析中，GlycoShape能够精确恢复其在不同组织中的糖基化模式，这对理解胰岛素样生长因子（IGF）在代谢调控中的作用具有重要意义。

糖基化在生物学中的重要性与挑战

糖基化在蛋白质折叠、稳定性、细胞间信号传递以及免疫识别等过程中起着重要作用。N-糖基化是最常见的糖基化形式之一，通常发生在内质网（ER）中，由糖基转移酶（glycosyltransferase）催化完成。N-糖链的存在不仅可以帮助蛋白质正确折叠，还可以保护蛋白质免受降解。此外，糖基化在免疫系统中也扮演着关键角色。例如，N-糖链可以作为病原体识别的靶标，参与宿主-病原体相互作用。糖链的修饰还会对抗体与病原体或宿主细胞的结合能力产生深远影响，这在免疫防御中至关重要。

糖基化在细胞信号传导中的重要性也不容忽视。糖基化修饰通过改变蛋白质表面电荷和空间构象，能够影响受体与配体的结合能力，进而调控信号转导过程。例如，细胞表面受体的N-糖基化可以增强与配体的亲和力，从而调节细胞生长和分化。此外，糖基化在癌症细胞中往往发生异常，导致糖链结构的改变，这些改变可能会影响癌细胞的黏附、迁移和免疫逃逸能力。因此，深入理解糖基化在肿瘤发生与发展中的作用，对于癌症的诊断和治疗具有重要意义。

尽管糖基化的重要性显而易见，但由于糖链结构的复杂性以及糖基化过程的动态性，对其进行全面而精确的研究具有相当的挑战。糖链的结构不仅涉及单糖的种类和序列，还涉及糖苷键的连接方式、分支结构及其三维构象。这些因素使得糖链结构的解析比蛋白质或核酸更加复杂。糖链结构的分支和不同单糖的组合形成了大量的异质性，使得每一种糖链都可能具有独特的功能。此外，糖链结构的动态性意味着其在不同的细胞类型、不同的生理和病理条件下会表现出不同的修饰模式。例如，在炎症或癌症等病理状态下，糖基化的模式往往发生显著变化，这种动态性进一步增加了糖基化研究的难度。

尤其是在蛋白质晶体学研究中，糖链往往会被移除以便于晶体生长，这进一步加大了糖基化结构解析的难度。即使是低分辨率的X射线晶体学数据，通常也难以提供糖基化位点的精确信息，这使得研究人员依赖于其他技术手段，例如核磁共振（NMR）和冷冻电子显微镜（Cryo-EM），来补充对糖基化的理解。此外，糖基化过程受到细胞内多种酶类的严格调控，包括糖基转移酶和糖苷酶，这些酶的活性会受到细胞状态和环境因素的影响，使得糖链修饰模式具有高度的可塑性和动态调节性。

研究糖基化过程及其在疾病中的作用，对于理解多种复杂疾病的机制具有重要意义。例如，在阿尔茨海默病中，tau蛋白和β-淀粉样蛋白的异常糖基化被认为是疾病进展的重要因素。类似地，在糖尿病中，血清蛋白的糖基化水平变化与胰岛素抵抗及高血糖状态密切相关。因此，糖基化不仅是生物体内普遍存在的修饰形式，也是多种疾病的关键病理特征之一，对其深入研究可能为疾病的早期诊断和治疗提供新思路。

GlycoShape的未来发展与应用前景

GlycoShape的开发为生命科学和结构生物学的研究者提供了一种高效且精确的工具，用于恢复和模拟糖基化后的蛋白质结构。通过结合实验数据和分子动力学模拟，GlycoShape不仅能够帮助研究人员更好地理解糖链在生物学中的多种功能，还能够为药物开发、疾病研究等领域提供有价值的信息。例如，在抗体药物的开发中，糖基化对抗体的稳定性和亲和力具有重要影响。通过使用GlycoShape，研究者可以模拟不同糖基化状态下抗体的结构，从而筛选出具有最佳性能的糖基化形式。

此外，随着GlycoShape数据库的不断扩展和算法的优化，未来该工具有望被广泛应用于其他类型的翻译后修饰研究中，例如磷酸化（phosphorylation）和甲基化（methylation）等。通过进一步与人工智能和机器学习技术的结合，GlycoShape可以为研究人员提供更为智能化和自动化的结构分析与预测工具，推动生命科学领域的深入研究。

总之，GlycoShape的推出标志着在糖基化结构解析和功能研究方面迈出了重要一步。通过对糖蛋白结构的精确模拟和恢复，GlycoShape为研究人员提供了一个强大的工具，以更好地理解糖基化在健康和疾病状态下的生物学功能，从而促进生命科学和医学研究的发展。

参考文献

责编|探索君

排版|探索君

转载请注明来源于【生物探索】