当前位置: 首页 > 新闻 > 国际新闻
国际新闻
Nature | 从静态结构到动态能量图谱:蛋白质设计的下一个关键战场
发布时间: 2026-05-20     来源: 生物探索

引言

如果你熟悉蛋白质结构,可能已经习惯了这样的叙事:序列决定结构,结构决定功能。但这句话隐藏了一个关键省略号。蛋白质并不是静止地“待在”一个结构里,而是在天然折叠态、部分打开态、局部松动状态和完全展开态之间持续波动。真正决定功能、相互作用、聚集风险和免疫原性的,往往不是那张最漂亮的静态结构图,而是这些状态之间的能量差。

5月13日,《Nature》的研究报道“Large-scale discovery, analysis and design of protein energy landscapes”,把这个过去很难规模化测量的问题推向了高通量时代。研究人员建立了多重氢氘交换质谱(multiplexed hydrogen–deuterium exchange mass spectrometry, mHDX-MS)方法,一次并行分析数百个蛋白结构域,最终得到5778个、长度为28–64个氨基酸的小蛋白结构域的开合能量信息,其中3590个被判定为可测稳定结构域。问题随之变得尖锐:两个结构相似、整体稳定性相近的蛋白,内部真的一样稳定吗?

那些“看不见”的状态,可能正在决定蛋白命运

蛋白质的低能量天然态(native state)容易被结构生物学捕捉,AlphaFold这类模型也主要预测这一类低能构象。但高能量激发态(excited states)通常只占极低比例,寿命短、数量少、难以直接观察。正因为如此,它们常被称为传统结构生物学中的“隐形状态”。

然而,低丰度不等于低影响。一个局部打开的β折叠边缘,可能暴露疏水表面并提高聚集倾向;一个短暂松动的表位,可能改变抗体识别;一个局部柔性的区域,也可能参与远距离变构(allostery)。传统全局稳定性测量告诉我们“整个蛋白有多难展开”,却很难回答“哪一段最先松开”。这正是氢氘交换(hydrogen–deuterium exchange, HDX)的价值:主链酰胺氢被氘替换的速度,能反映局部结构从闭合状态进入开放状态的难易程度。

在这项研究中,研究人员不是逐个纯化蛋白、逐个测量,而是用DNA寡核苷酸池(DNA oligo pool)合成并表达混合蛋白库。每个样品包含108–1334个小结构域;每个结构域在重水(D2O)中经历从25秒到24小时的交换;在pH 6和pH 9下各采集32个时间点,总计64个时间点。

随后,液相色谱-离子淌度-质谱(LC–IMS-MS)记录每个结构域随时间变化的同位素分布。研究人员再用贝叶斯推断(Bayesian inference)估计每个可交换位点的交换速率(kHX),并换算为近似开放自由能(opening free energy, ΔGopen)。

这套方法的核心,不只是“测得多”,而是把蛋白从一个整体稳定性数值,拆成了一条能量剖面:哪些残基需要接近整体展开才会交换,哪些残基只要局部轻微打开就会交换。

5778个结构域之后,稳定性不再是一个数字

研究从15715条序列开始,最终成功获得5778个结构域的mHDX-MS结果。它们来自10类蛋白家族,包括4类从头设计(de novo designed)的结构域,以及LysM、PASTA、WW、SH3、pyrin、cold-shock等天然结构域。进一步剔除低稳定性或不满足分析要求的对象后,3590个稳定结构域进入主要分析。

先看方法可靠性。13个结构域用位点分辨的氢氘交换核磁共振(HDX nuclear magnetic resonance, HDX NMR)验证,mHDX-MS得到的交换速率分布与NMR结果的均方根误差为1.9倍;ΔGopen分布的误差为0.53 kcal mol−1。与cDNA展示蛋白水解(cDNA display proteolysis)测得的全局折叠稳定性相比,4464个结构域之间的相关系数达到r = 0.78。mHDX-MS测得的稳定性通常高出1.6 kcal mol−1,研究人员认为这很可能与D2O对蛋白稳定性的增强有关。

关键判断:mHDX-MS不是完美的单蛋白精测工具,但足够可靠地揭示了一个过去难以观察的事实:蛋白的“整体稳定”与“局部稳定”可以明显脱钩。

在mHDX-MS里,研究人员把最稳定的5个残基的平均ΔGopen近似作为全局展开自由能(global folding stability, ΔGunfold)。这相当于问:蛋白最难打开的部分有多稳?同时,他们计算所有可交换残基的平均开放能量(average opening free energy, ΔGavg),相当于问:整个结构内部平均有多容易发生局部打开。

如果一个蛋白像理想两态模型(two-state model)那样“要么全折叠、要么全展开”,那么许多残基的ΔGopen应当接近ΔGunfold。但真实数据并非如此。多数蛋白中,很多残基会在低于整体展开能量的条件下交换,说明它们经由局部打开或部分展开状态完成氢氘交换。更有意思的是,两个ΔGunfold相似的蛋白,ΔGavg可以相差很大;这意味着它们的整体稳定性差不多,但内部波动方式完全不同。

“开合协同性”:一个蛋白是否愿意一起行动?

为了描述这种差异,研究人员提出了标准化开合协同性(normalized opening cooperativity)。这里的协同性(cooperativity)不是简单说蛋白稳不稳,而是说它是否倾向于整体一起打开,还是某些区域更早、更容易局部松动。

研究人员建立了一个5参数经验模型,用ΔGunfold、氢键供体比例和净电荷预测ΔGavg。这个模型解释了89%的ΔGavg方差。剩余偏差就很有意思:如果某个蛋白的实际ΔGavg高于模型预期,它的局部开合更少,协同性更高;如果实际ΔGavg低于预期,它有更多低能量局部打开,协同性更低。

这一步很关键,因为高稳定蛋白本身更容易在ΔGunfold以下拥有许多部分打开状态。研究人员通过模型把“整体更稳”带来的影响先剥离掉,尽量比较同等稳定性背景下的局部波动差异。

结果显示,不同蛋白家族之间确实有平均差异。例如PASTA结构域和从头设计的ββαββ结构域平均协同性较高,可能与β折叠架构有关。但更值得注意的是,家族内部差异往往大于家族之间差异。也就是说,同一种折叠类型并不能决定其能量景观(energy landscape);具体序列仍然强烈塑造局部波动。

这对蛋白设计和变异解释很有警示意义。我们不能只问“这个变异会不会改变结构”,还要问“它是否改变了结构内部的能量分布”。一个变异可能不改变主折叠,却让某个二级结构片段变得更容易打开。

低协同性蛋白的弱点,常常是一整段二级结构

mHDX-MS能给出每个结构域的ΔGopen分布,但不能直接告诉我们哪个残基对应哪一个速率。为了定位不稳定区域,研究人员用HDX NMR深入分析了5个低协同性蛋白和3个高协同性对照。

结果很清楚:5个低协同性蛋白中有4个,不稳定残基聚集在特定结构区域,而不是均匀散落。

从头设计蛋白HHH_rd4_0518是一个典型例子。它有三段α螺旋(α-helix)。NMR解析显示,它的天然结构与设计模型和AlphaFold预测吻合,说明第三段螺旋并不是没有折好。可是HDX NMR显示,α1和α2核心区域的开放能量接近6 kcal mol−1,而α3低于3 kcal mol−1。换句话说,结构看起来是完整的,但第三段螺旋在能量景观上明显更容易打开。

另一个设计蛋白EEHEE_rd4_0871也类似。它的C端β发夹(C-terminal β-hairpin)比其他结构区域不稳定得多,甚至快到NMR难以准确测量。结构解析同样显示,这段β发夹在天然态中按设计折叠,并与螺旋及N端β发夹接触。问题不是“折错了”,而是“折得不够稳”。

天然LysM_0873也显示局部聚集的不稳定区域,低稳定残基集中在α2和β2。相比之下,高协同性例子HHH_rd3_0062、EEHEE_rd4_0642和LysM_3314在不同二级结构之间的开放能量更均一。

这里最值得思考:HHH_rd4_0518、EEHEE_rd4_0871和LysM_0873在各自家族中的全局稳定性分别处在第76–94百分位之间,却仍有局部结构片段显著不稳定。一个蛋白可以总体很稳,同时局部很“脆”。如果只看ΔGunfold,可能会完全错过这个风险。

哪些序列特征在塑造局部波动?答案比想象中复杂

有了3590个稳定结构域的数据,研究人员进一步问:哪些序列或结构特征与开合协同性有关?他们用AlphaFold2预测结构,再结合Rosetta能量项、氨基酸组成、二级结构预测、无序预测等,计算了数千个特征;其中ααα家族分析了4520个特征,ββαββ家族分析了5642个特征。

结果并没有出现一个“万能解释变量”。与协同性相关性最高的单个特征也只是中等强度:ααα家族中最大绝对Pearson相关系数为0.38 ± 0.07;ββαββ家族为0.27 ± 0.09。也就是说,局部能量景观由多因素共同决定。

一些发现值得细看。在ααα家族中,平均紧凑度(average degree compactness,即每个Cα周围9.5 Å内的平均Cα数量)与协同性正相关,但与全局稳定性略负相关。原因可能是,更紧凑的设计常伴随更多丙氨酸(alanine)和更少大型非极性残基,这有助于整体一起开合,却可能牺牲部分疏水核心稳定性。

在ββαββ家族中,脯氨酸数量(proline count)与协同性正相关,却与全局稳定性负相关。这并不难理解:脯氨酸会限制主链构象,可能抑制某些局部打开,但也可能破坏局部折叠或降低整体稳定。另一个有意思的特征是螺旋C端有利电荷(helix C-terminal favourable charge)。理论上,正电荷可以抵消α螺旋偶极并稳定螺旋;在326个ββαββ结构域中,这一特征与ΔGunfold确实略正相关,Pearson相关系数为0.13 ± 0.10。但它与协同性反而负相关,相关系数为−0.17 ± 0.11。这提示:某些突变可能主要稳定一个螺旋,却没有同步稳定β折叠,从而扩大结构内部稳定性差距。

这也是蛋白工程里常见但容易被低估的问题:稳定一个局部,不等于优化整个能量景观。

机器学习能预测能量景观吗?还不能,但已经能帮忙找突变

研究人员还训练了机器学习模型,用工程化特征和蛋白语言模型(protein language model, PLM)嵌入来预测全局稳定性和家族标准化协同性。结果显示,预测ΔGunfold相对容易,最佳R²为0.40–0.53;预测开合协同性更难,最佳R²只有0.16–0.24。研究人员估计,在当前实验噪声水平下,完美模型理论上可达到R²约0.74–0.78,因此现有模型仍有很大提升空间。

但“预测不准”并不等于“没有用”。研究人员选择HHH_rd4_0518和EEHEE_rd4_0871两个低协同性蛋白,用模型筛选可能提高协同性且维持或增加稳定性的双突变。这样的突变在所有可能组合中预计只占4–6%。随后他们为每个野生型选择70个模型推荐双突变和70个随机双突变,共280个变体进行实验。

成功测得的结果包括38个HHH_rd4_0518变体(20个设计、18个随机)和80个EEHEE_rd4_0871变体(54个设计、26个随机)。总体上,设计变体更常提高开合协同性,尽管有时会牺牲全局稳定性。更重要的是,HHH_rd4_0518中有5个变体同时提高稳定性和协同性,其中4个来自设计组;EEHEE_rd4_0871中有14个同时改善,其中12个来自设计组。

最直观的例子是HHH_rd4_0518_R35D_G45L。HDX NMR显示,这个双突变稳定了整个蛋白,但对最不稳定的α3提升最大:α3提高1.2 kcal mol−1,α2提高0.9 kcal mol−1,α1提高0.6 kcal mol−1。

G45L可能通过新的疏水相互作用稳定C端;R35D则可能把原本不利于螺旋偶极的相互作用改造成有利相互作用。这个例子说明,数据驱动设计并不一定要一口气预测整个能量景观,只要能帮助我们更高效地找到少数关键突变,就已经具有实际价值。

结构预测之后,下一个难题是“动态预测”

这项研究最有启发性的地方,不是证明mHDX-MS已经解决了蛋白能量景观问题,而是明确指出:静态结构预测的胜利之后,蛋白科学还有一个更大的动态空间尚未被系统测量。

3590个稳定结构域提示我们,天然态结构相似、整体稳定性相似,并不意味着局部开合行为相似。低协同性常常对应某一整段二级结构的低能量打开;而这些局部波动可能与聚集、功能调控、免疫暴露和工程可塑性直接相关。更现实的是,当前机器学习模型对协同性的解释力还有限,说明我们并没有真正掌握序列如何编码能量景观。

因此,这项研究提供的不是一个终点,而是一种新的实验入口。过去,蛋白质数据库主要积累“折叠后长什么样”;未来,我们可能还需要大规模积累“它们如何呼吸、哪里先松动、哪些区域被突变重新加固”。当蛋白工程从“设计一个结构”进入“设计一组可控状态”,能量景观才会真正成为可编程对象。

如果一个致病变异没有改变AlphaFold预测结构,却让某个本应稳定的二级结构片段更容易打开,我们现在有多少方法能发现它?

这项研究的意义,或许正在于把这个问题从少数蛋白的个案研究,推进到成千上万条序列的系统测量。 

代理服务