Nature | 从静态结构到动态能量图谱：蛋白质设计的下一个关键战场

当前位置: 首页 > 新闻 > 国际新闻

国际新闻

Nature | 从静态结构到动态能量图谱：蛋白质设计的下一个关键战场
发布时间: 2026-05-20 来源: 生物探索

引言

如果你熟悉蛋白质结构，可能已经习惯了这样的叙事：序列决定结构，结构决定功能。但这句话隐藏了一个关键省略号。蛋白质并不是静止地“待在”一个结构里，而是在天然折叠态、部分打开态、局部松动状态和完全展开态之间持续波动。真正决定功能、相互作用、聚集风险和免疫原性的，往往不是那张最漂亮的静态结构图，而是这些状态之间的能量差。

5月13日，《Nature》的研究报道“Large-scale discovery, analysis and design of protein energy landscapes”，把这个过去很难规模化测量的问题推向了高通量时代。研究人员建立了多重氢氘交换质谱（multiplexed hydrogen–deuterium exchange mass spectrometry, mHDX-MS）方法，一次并行分析数百个蛋白结构域，最终得到5778个、长度为28–64个氨基酸的小蛋白结构域的开合能量信息，其中3590个被判定为可测稳定结构域。问题随之变得尖锐：两个结构相似、整体稳定性相近的蛋白，内部真的一样稳定吗？

那些“看不见”的状态，可能正在决定蛋白命运

蛋白质的低能量天然态（native state）容易被结构生物学捕捉，AlphaFold这类模型也主要预测这一类低能构象。但高能量激发态（excited states）通常只占极低比例，寿命短、数量少、难以直接观察。正因为如此，它们常被称为传统结构生物学中的“隐形状态”。

然而，低丰度不等于低影响。一个局部打开的β折叠边缘，可能暴露疏水表面并提高聚集倾向；一个短暂松动的表位，可能改变抗体识别；一个局部柔性的区域，也可能参与远距离变构（allostery）。传统全局稳定性测量告诉我们“整个蛋白有多难展开”，却很难回答“哪一段最先松开”。这正是氢氘交换（hydrogen–deuterium exchange, HDX）的价值：主链酰胺氢被氘替换的速度，能反映局部结构从闭合状态进入开放状态的难易程度。

在这项研究中，研究人员不是逐个纯化蛋白、逐个测量，而是用DNA寡核苷酸池（DNA oligo pool）合成并表达混合蛋白库。每个样品包含108–1334个小结构域；每个结构域在重水（D2O）中经历从25秒到24小时的交换；在pH 6和pH 9下各采集32个时间点，总计64个时间点。

随后，液相色谱-离子淌度-质谱（LC–IMS-MS）记录每个结构域随时间变化的同位素分布。研究人员再用贝叶斯推断（Bayesian inference）估计每个可交换位点的交换速率（kHX），并换算为近似开放自由能（opening free energy, ΔGopen）。

这套方法的核心，不只是“测得多”，而是把蛋白从一个整体稳定性数值，拆成了一条能量剖面：哪些残基需要接近整体展开才会交换，哪些残基只要局部轻微打开就会交换。

5778个结构域之后，稳定性不再是一个数字

研究从15715条序列开始，最终成功获得5778个结构域的mHDX-MS结果。它们来自10类蛋白家族，包括4类从头设计（de novo designed）的结构域，以及LysM、PASTA、WW、SH3、pyrin、cold-shock等天然结构域。进一步剔除低稳定性或不满足分析要求的对象后，3590个稳定结构域进入主要分析。

先看方法可靠性。13个结构域用位点分辨的氢氘交换核磁共振（HDX nuclear magnetic resonance, HDX NMR）验证，mHDX-MS得到的交换速率分布与NMR结果的均方根误差为1.9倍；ΔGopen分布的误差为0.53 kcal mol−1。与cDNA展示蛋白水解（cDNA display proteolysis）测得的全局折叠稳定性相比，4464个结构域之间的相关系数达到r = 0.78。mHDX-MS测得的稳定性通常高出1.6 kcal mol−1，研究人员认为这很可能与D2O对蛋白稳定性的增强有关。

关键判断：mHDX-MS不是完美的单蛋白精测工具，但足够可靠地揭示了一个过去难以观察的事实：蛋白的“整体稳定”与“局部稳定”可以明显脱钩。

在mHDX-MS里，研究人员把最稳定的5个残基的平均ΔGopen近似作为全局展开自由能（global folding stability, ΔGunfold）。这相当于问：蛋白最难打开的部分有多稳？同时，他们计算所有可交换残基的平均开放能量（average opening free energy, ΔGavg），相当于问：整个结构内部平均有多容易发生局部打开。

如果一个蛋白像理想两态模型（two-state model）那样“要么全折叠、要么全展开”，那么许多残基的ΔGopen应当接近ΔGunfold。但真实数据并非如此。多数蛋白中，很多残基会在低于整体展开能量的条件下交换，说明它们经由局部打开或部分展开状态完成氢氘交换。更有意思的是，两个ΔGunfold相似的蛋白，ΔGavg可以相差很大；这意味着它们的整体稳定性差不多，但内部波动方式完全不同。

“开合协同性”：一个蛋白是否愿意一起行动？

为了描述这种差异，研究人员提出了标准化开合协同性（normalized opening cooperativity）。这里的协同性（cooperativity）不是简单说蛋白稳不稳，而是说它是否倾向于整体一起打开，还是某些区域更早、更容易局部松动。

研究人员建立了一个5参数经验模型，用ΔGunfold、氢键供体比例和净电荷预测ΔGavg。这个模型解释了89%的ΔGavg方差。剩余偏差就很有意思：如果某个蛋白的实际ΔGavg高于模型预期，它的局部开合更少，协同性更高；如果实际ΔGavg低于预期，它有更多低能量局部打开，协同性更低。

这一步很关键，因为高稳定蛋白本身更容易在ΔGunfold以下拥有许多部分打开状态。研究人员通过模型把“整体更稳”带来的影响先剥离掉，尽量比较同等稳定性背景下的局部波动差异。

结果显示，不同蛋白家族之间确实有平均差异。例如PASTA结构域和从头设计的ββαββ结构域平均协同性较高，可能与β折叠架构有关。但更值得注意的是，家族内部差异往往大于家族之间差异。也就是说，同一种折叠类型并不能决定其能量景观（energy landscape）；具体序列仍然强烈塑造局部波动。

这对蛋白设计和变异解释很有警示意义。我们不能只问“这个变异会不会改变结构”，还要问“它是否改变了结构内部的能量分布”。一个变异可能不改变主折叠，却让某个二级结构片段变得更容易打开。

低协同性蛋白的弱点，常常是一整段二级结构

mHDX-MS能给出每个结构域的ΔGopen分布，但不能直接告诉我们哪个残基对应哪一个速率。为了定位不稳定区域，研究人员用HDX NMR深入分析了5个低协同性蛋白和3个高协同性对照。

结果很清楚：5个低协同性蛋白中有4个，不稳定残基聚集在特定结构区域，而不是均匀散落。

从头设计蛋白HHH_rd4_0518是一个典型例子。它有三段α螺旋（α-helix）。NMR解析显示，它的天然结构与设计模型和AlphaFold预测吻合，说明第三段螺旋并不是没有折好。可是HDX NMR显示，α1和α2核心区域的开放能量接近6 kcal mol−1，而α3低于3 kcal mol−1。换句话说，结构看起来是完整的，但第三段螺旋在能量景观上明显更容易打开。

另一个设计蛋白EEHEE_rd4_0871也类似。它的C端β发夹（C-terminal β-hairpin）比其他结构区域不稳定得多，甚至快到NMR难以准确测量。结构解析同样显示，这段β发夹在天然态中按设计折叠，并与螺旋及N端β发夹接触。问题不是“折错了”，而是“折得不够稳”。

天然LysM_0873也显示局部聚集的不稳定区域，低稳定残基集中在α2和β2。相比之下，高协同性例子HHH_rd3_0062、EEHEE_rd4_0642和LysM_3314在不同二级结构之间的开放能量更均一。

这里最值得思考：HHH_rd4_0518、EEHEE_rd4_0871和LysM_0873在各自家族中的全局稳定性分别处在第76–94百分位之间，却仍有局部结构片段显著不稳定。一个蛋白可以总体很稳，同时局部很“脆”。如果只看ΔGunfold，可能会完全错过这个风险。

哪些序列特征在塑造局部波动？答案比想象中复杂

有了3590个稳定结构域的数据，研究人员进一步问：哪些序列或结构特征与开合协同性有关？他们用AlphaFold2预测结构，再结合Rosetta能量项、氨基酸组成、二级结构预测、无序预测等，计算了数千个特征；其中ααα家族分析了4520个特征，ββαββ家族分析了5642个特征。

结果并没有出现一个“万能解释变量”。与协同性相关性最高的单个特征也只是中等强度：ααα家族中最大绝对Pearson相关系数为0.38 ± 0.07；ββαββ家族为0.27 ± 0.09。也就是说，局部能量景观由多因素共同决定。

一些发现值得细看。在ααα家族中，平均紧凑度（average degree compactness，即每个Cα周围9.5 Å内的平均Cα数量）与协同性正相关，但与全局稳定性略负相关。原因可能是，更紧凑的设计常伴随更多丙氨酸（alanine）和更少大型非极性残基，这有助于整体一起开合，却可能牺牲部分疏水核心稳定性。

在ββαββ家族中，脯氨酸数量（proline count）与协同性正相关，却与全局稳定性负相关。这并不难理解：脯氨酸会限制主链构象，可能抑制某些局部打开，但也可能破坏局部折叠或降低整体稳定。另一个有意思的特征是螺旋C端有利电荷（helix C-terminal favourable charge）。理论上，正电荷可以抵消α螺旋偶极并稳定螺旋；在326个ββαββ结构域中，这一特征与ΔGunfold确实略正相关，Pearson相关系数为0.13 ± 0.10。但它与协同性反而负相关，相关系数为−0.17 ± 0.11。这提示：某些突变可能主要稳定一个螺旋，却没有同步稳定β折叠，从而扩大结构内部稳定性差距。

这也是蛋白工程里常见但容易被低估的问题：稳定一个局部，不等于优化整个能量景观。

机器学习能预测能量景观吗？还不能，但已经能帮忙找突变

研究人员还训练了机器学习模型，用工程化特征和蛋白语言模型（protein language model, PLM）嵌入来预测全局稳定性和家族标准化协同性。结果显示，预测ΔGunfold相对容易，最佳R²为0.40–0.53；预测开合协同性更难，最佳R²只有0.16–0.24。研究人员估计，在当前实验噪声水平下，完美模型理论上可达到R²约0.74–0.78，因此现有模型仍有很大提升空间。

但“预测不准”并不等于“没有用”。研究人员选择HHH_rd4_0518和EEHEE_rd4_0871两个低协同性蛋白，用模型筛选可能提高协同性且维持或增加稳定性的双突变。这样的突变在所有可能组合中预计只占4–6%。随后他们为每个野生型选择70个模型推荐双突变和70个随机双突变，共280个变体进行实验。

成功测得的结果包括38个HHH_rd4_0518变体（20个设计、18个随机）和80个EEHEE_rd4_0871变体（54个设计、26个随机）。总体上，设计变体更常提高开合协同性，尽管有时会牺牲全局稳定性。更重要的是，HHH_rd4_0518中有5个变体同时提高稳定性和协同性，其中4个来自设计组；EEHEE_rd4_0871中有14个同时改善，其中12个来自设计组。

最直观的例子是HHH_rd4_0518_R35D_G45L。HDX NMR显示，这个双突变稳定了整个蛋白，但对最不稳定的α3提升最大：α3提高1.2 kcal mol−1，α2提高0.9 kcal mol−1，α1提高0.6 kcal mol−1。

G45L可能通过新的疏水相互作用稳定C端；R35D则可能把原本不利于螺旋偶极的相互作用改造成有利相互作用。这个例子说明，数据驱动设计并不一定要一口气预测整个能量景观，只要能帮助我们更高效地找到少数关键突变，就已经具有实际价值。

结构预测之后，下一个难题是“动态预测”

这项研究最有启发性的地方，不是证明mHDX-MS已经解决了蛋白能量景观问题，而是明确指出：静态结构预测的胜利之后，蛋白科学还有一个更大的动态空间尚未被系统测量。

3590个稳定结构域提示我们，天然态结构相似、整体稳定性相似，并不意味着局部开合行为相似。低协同性常常对应某一整段二级结构的低能量打开；而这些局部波动可能与聚集、功能调控、免疫暴露和工程可塑性直接相关。更现实的是，当前机器学习模型对协同性的解释力还有限，说明我们并没有真正掌握序列如何编码能量景观。

因此，这项研究提供的不是一个终点，而是一种新的实验入口。过去，蛋白质数据库主要积累“折叠后长什么样”；未来，我们可能还需要大规模积累“它们如何呼吸、哪里先松动、哪些区域被突变重新加固”。当蛋白工程从“设计一个结构”进入“设计一组可控状态”，能量景观才会真正成为可编程对象。

如果一个致病变异没有改变AlphaFold预测结构，却让某个本应稳定的二级结构片段更容易打开，我们现在有多少方法能发现它？

这项研究的意义，或许正在于把这个问题从少数蛋白的个案研究，推进到成千上万条序列的系统测量。

上一篇：产业新闻 | 治疗高血压，阿斯利康“first-i.. 下一篇：Nature Biotechnology | mRNA治疗的下一步..

滚动新闻

更多 >

信用评价

更多 >

代理服务

更多 >