Nature | 从静态结构到动态能量图谱:蛋白质设计的下一个关键战场

问AI · 动态预测能否成为AI蛋白建模新焦点?

引言

如果你熟悉蛋白质结构,可能已经习惯了这样的叙事:序列决定结构,结构决定功能。但这句话隐藏了一个关键省略号。蛋白质并不是静止地“待在”一个结构里,而是在天然折叠态、部分打开态、局部松动状态和完全展开态之间持续波动。真正决定功能、相互作用、聚集风险和免疫原性的,往往不是那张最漂亮的静态结构图,而是这些状态之间的能量差。

5月13日,《Nature》的研究报道“Large-scale discovery, analysis and design of protein energy landscapes”,把这个过去很难规模化测量的问题推向了高通量时代。研究人员建立了多重氢氘交换质谱(multiplexed hydrogen–deuterium exchange mass spectrometry, mHDX-MS)方法,一次并行分析数百个蛋白结构域,最终得到5778个、长度为28–64个氨基酸的小蛋白结构域的开合能量信息,其中3590个被判定为可测稳定结构域。问题随之变得尖锐:两个结构相似、整体稳定性相近的蛋白,内部真的一样稳定吗?
图片

那些“看不见”的状态,可能正在决定蛋白命运

蛋白质的低能量天然态(native state)容易被结构生物学捕捉,AlphaFold这类模型也主要预测这一类低能构象。但高能量激发态(excited states)通常只占极低比例,寿命短、数量少、难以直接观察。正因为如此,它们常被称为传统结构生物学中的“隐形状态”。

然而,低丰度不等于低影响。一个局部打开的β折叠边缘,可能暴露疏水表面并提高聚集倾向;一个短暂松动的表位,可能改变抗体识别;一个局部柔性的区域,也可能参与远距离变构(allostery)。传统全局稳定性测量告诉我们“整个蛋白有多难展开”,却很难回答“哪一段最先松开”。这正是氢氘交换(hydrogen–deuterium exchange, HDX)的价值:主链酰胺氢被氘替换的速度,能反映局部结构从闭合状态进入开放状态的难易程度。

在这项研究中,研究人员不是逐个纯化蛋白、逐个测量,而是用DNA寡核苷酸池(DNA oligo pool)合成并表达混合蛋白库。每个样品包含108–1334个小结构域;每个结构域在重水(D2O)中经历从25秒到24小时的交换;在pH 6和pH 9下各采集32个时间点,总计64个时间点

随后,液相色谱-离子淌度-质谱(LC–IMS-MS)记录每个结构域随时间变化的同位素分布。研究人员再用贝叶斯推断(Bayesian inference)估计每个可交换位点的交换速率(kHX),并换算为近似开放自由能(opening free energy, ΔGopen)。

这套方法的核心,不只是“测得多”,而是把蛋白从一个整体稳定性数值,拆成了一条能量剖面:哪些残基需要接近整体展开才会交换,哪些残基只要局部轻微打开就会交换。

5778个结构域之后,稳定性不再是一个数字

研究从15715条序列开始,最终成功获得5778个结构域的mHDX-MS结果。它们来自10类蛋白家族,包括4类从头设计(de novo designed)的结构域,以及LysM、PASTA、WW、SH3、pyrin、cold-shock等天然结构域。进一步剔除低稳定性或不满足分析要求的对象后,3590个稳定结构域进入主要分析。

先看方法可靠性。13个结构域用位点分辨的氢氘交换核磁共振(HDX nuclear magnetic resonance, HDX NMR)验证,mHDX-MS得到的交换速率分布与NMR结果的均方根误差为1.9倍;ΔGopen分布的误差为0.53 kcal mol−1。与cDNA展示蛋白水解(cDNA display proteolysis)测得的全局折叠稳定性相比,4464个结构域之间的相关系数达到r = 0.78。mHDX-MS测得的稳定性通常高出1.6 kcal mol−1,研究人员认为这很可能与D2O对蛋白稳定性的增强有关。

关键判断:mHDX-MS不是完美的单蛋白精测工具,但足够可靠地揭示了一个过去难以观察的事实:蛋白的“整体稳定”与“局部稳定”可以明显脱钩

在mHDX-MS里,研究人员把最稳定的5个残基的平均ΔGopen近似作为全局展开自由能(global folding stability, ΔGunfold)。这相当于问:蛋白最难打开的部分有多稳?同时,他们计算所有可交换残基的平均开放能量(average opening free energy, ΔGavg),相当于问:整个结构内部平均有多容易发生局部打开。

如果一个蛋白像理想两态模型(two-state model)那样“要么全折叠、要么全展开”,那么许多残基的ΔGopen应当接近ΔGunfold。但真实数据并非如此。多数蛋白中,很多残基会在低于整体展开能量的条件下交换,说明它们经由局部打开或部分展开状态完成氢氘交换。更有意思的是,两个ΔGunfold相似的蛋白,ΔGavg可以相差很大;这意味着它们的整体稳定性差不多,但内部波动方式完全不同。

“开合协同性”:一个蛋白是否愿意一起行动?

为了描述这种差异,研究人员提出了标准化开合协同性(normalized opening cooperativity)。这里的协同性(cooperativity)不是简单说蛋白稳不稳,而是说它是否倾向于整体一起打开,还是某些区域更早、更容易局部松动。

研究人员建立了一个5参数经验模型,用ΔGunfold、氢键供体比例和净电荷预测ΔGavg。这个模型解释了89%的ΔGavg方差。剩余偏差就很有意思:如果某个蛋白的实际ΔGavg高于模型预期,它的局部开合更少,协同性更高;如果实际ΔGavg低于预期,它有更多低能量局部打开,协同性更低。

这一步很关键,因为高稳定蛋白本身更容易在ΔGunfold以下拥有许多部分打开状态。研究人员通过模型把“整体更稳”带来的影响先剥离掉,尽量比较同等稳定性背景下的局部波动差异

结果显示,不同蛋白家族之间确实有平均差异。例如PASTA结构域和从头设计的ββαββ结构域平均协同性较高,可能与β折叠架构有关。但更值得注意的是,家族内部差异往往大于家族之间差异。也就是说,同一种折叠类型并不能决定其能量景观(energy landscape);具体序列仍然强烈塑造局部波动。

这对蛋白设计和变异解释很有警示意义。我们不能只问“这个变异会不会改变结构”,还要问“它是否改变了结构内部的能量分布”。一个变异可能不改变主折叠,却让某个二级结构片段变得更容易打开。

低协同性蛋白的弱点,常常是一整段二级结构

mHDX-MS能给出每个结构域的ΔGopen分布,但不能直接告诉我们哪个残基对应哪一个速率。为了定位不稳定区域,研究人员用HDX NMR深入分析了5个低协同性蛋白和3个高协同性对照。

结果很清楚:5个低协同性蛋白中有4个,不稳定残基聚集在特定结构区域,而不是均匀散落。

从头设计蛋白HHH_rd4_0518是一个典型例子。它有三段α螺旋(α-helix)。NMR解析显示,它的天然结构与设计模型和AlphaFold预测吻合,说明第三段螺旋并不是没有折好。可是HDX NMR显示,α1和α2核心区域的开放能量接近6 kcal mol−1,而α3低于3 kcal mol−1。换句话说,结构看起来是完整的,但第三段螺旋在能量景观上明显更容易打开。

另一个设计蛋白EEHEE_rd4_0871也类似。它的C端β发夹(C-terminal β-hairpin)比其他结构区域不稳定得多,甚至快到NMR难以准确测量。结构解析同样显示,这段β发夹在天然态中按设计折叠,并与螺旋及N端β发夹接触。问题不是“折错了”,而是“折得不够稳”。

天然LysM_0873也显示局部聚集的不稳定区域,低稳定残基集中在α2和β2。相比之下,高协同性例子HHH_rd3_0062、EEHEE_rd4_0642和LysM_3314在不同二级结构之间的开放能量更均一。

这里最值得思考:HHH_rd4_0518、EEHEE_rd4_0871和LysM_0873在各自家族中的全局稳定性分别处在第76–94百分位之间,却仍有局部结构片段显著不稳定。一个蛋白可以总体很稳,同时局部很“脆”。如果只看ΔGunfold,可能会完全错过这个风险。

哪些序列特征在塑造局部波动?答案比想象中复杂

有了3590个稳定结构域的数据,研究人员进一步问:哪些序列或结构特征与开合协同性有关?他们用AlphaFold2预测结构,再结合Rosetta能量项、氨基酸组成、二级结构预测、无序预测等,计算了数千个特征;其中ααα家族分析了4520个特征,ββαββ家族分析了5642个特征

结果并没有出现一个“万能解释变量”。与协同性相关性最高的单个特征也只是中等强度:ααα家族中最大绝对Pearson相关系数为0.38 ± 0.07;ββαββ家族为0.27 ± 0.09。也就是说,局部能量景观由多因素共同决定。

一些发现值得细看。在ααα家族中,平均紧凑度(average degree compactness,即每个Cα周围9.5 Å内的平均Cα数量)与协同性正相关,但与全局稳定性略负相关。原因可能是,更紧凑的设计常伴随更多丙氨酸(alanine)和更少大型非极性残基,这有助于整体一起开合,却可能牺牲部分疏水核心稳定性。

在ββαββ家族中,脯氨酸数量(proline count)与协同性正相关,却与全局稳定性负相关。这并不难理解:脯氨酸会限制主链构象,可能抑制某些局部打开,但也可能破坏局部折叠或降低整体稳定。另一个有意思的特征是螺旋C端有利电荷(helix C-terminal favourable charge)。理论上,正电荷可以抵消α螺旋偶极并稳定螺旋;在326个ββαββ结构域中,这一特征与ΔGunfold确实略正相关,Pearson相关系数为0.13 ± 0.10。但它与协同性反而负相关,相关系数为−0.17 ± 0.11。这提示:某些突变可能主要稳定一个螺旋,却没有同步稳定β折叠,从而扩大结构内部稳定性差距。

这也是蛋白工程里常见但容易被低估的问题:稳定一个局部,不等于优化整个能量景观。

机器学习能预测能量景观吗?还不能,但已经能帮忙找突变

研究人员还训练了机器学习模型,用工程化特征和蛋白语言模型(protein language model, PLM)嵌入来预测全局稳定性和家族标准化协同性。结果显示,预测ΔGunfold相对容易,最佳R²为0.40–0.53;预测开合协同性更难,最佳R²只有0.16–0.24。研究人员估计,在当前实验噪声水平下,完美模型理论上可达到R²约0.74–0.78,因此现有模型仍有很大提升空间。

但“预测不准”并不等于“没有用”。研究人员选择HHH_rd4_0518和EEHEE_rd4_0871两个低协同性蛋白,用模型筛选可能提高协同性且维持或增加稳定性的双突变。这样的突变在所有可能组合中预计只占4–6%。随后他们为每个野生型选择70个模型推荐双突变和70个随机双突变,共280个变体进行实验。

成功测得的结果包括38个HHH_rd4_0518变体(20个设计、18个随机)和80个EEHEE_rd4_0871变体(54个设计、26个随机)。总体上,设计变体更常提高开合协同性,尽管有时会牺牲全局稳定性。更重要的是,HHH_rd4_0518中有5个变体同时提高稳定性和协同性,其中4个来自设计组;EEHEE_rd4_0871中有14个同时改善,其中12个来自设计组。

最直观的例子是HHH_rd4_0518_R35D_G45L。HDX NMR显示,这个双突变稳定了整个蛋白,但对最不稳定的α3提升最大:α3提高1.2 kcal mol−1,α2提高0.9 kcal mol−1,α1提高0.6 kcal mol−1

G45L可能通过新的疏水相互作用稳定C端;R35D则可能把原本不利于螺旋偶极的相互作用改造成有利相互作用。这个例子说明,数据驱动设计并不一定要一口气预测整个能量景观,只要能帮助我们更高效地找到少数关键突变,就已经具有实际价值。

结构预测之后,下一个难题是“动态预测”

这项研究最有启发性的地方,不是证明mHDX-MS已经解决了蛋白能量景观问题,而是明确指出:静态结构预测的胜利之后,蛋白科学还有一个更大的动态空间尚未被系统测量。

3590个稳定结构域提示我们,天然态结构相似、整体稳定性相似,并不意味着局部开合行为相似。低协同性常常对应某一整段二级结构的低能量打开;而这些局部波动可能与聚集、功能调控、免疫暴露和工程可塑性直接相关。更现实的是,当前机器学习模型对协同性的解释力还有限,说明我们并没有真正掌握序列如何编码能量景观。

因此,这项研究提供的不是一个终点,而是一种新的实验入口。过去,蛋白质数据库主要积累“折叠后长什么样”;未来,我们可能还需要大规模积累“它们如何呼吸、哪里先松动、哪些区域被突变重新加固”。当蛋白工程从“设计一个结构”进入“设计一组可控状态”,能量景观才会真正成为可编程对象。

如果一个致病变异没有改变AlphaFold预测结构,却让某个本应稳定的二级结构片段更容易打开,我们现在有多少方法能发现它?

这项研究的意义,或许正在于把这个问题从少数蛋白的个案研究,推进到成千上万条序列的系统测量。



参考文献


Ferrari ÁJR, Dixit SM, Thibeault J, Garcia M, Houliston S, Ludwig RW, Notin P, Phoumyvong CM, Martell CM, Jung MD, Tsuboyama K, Carter L, Arrowsmith CH, Guttman M, Rocklin GJ. Large-scale discovery, analysis and design of protein energy landscapes. Nature. 2026 May 13. doi: 10.1038/s41586-026-10465-z. Epub ahead of print. PMID: 42129553.