Nat. Methods | 解码单点突变蛋白密码的相互作用语言模型

DrugAI

发布于 2026-05-08 19:52:24

900

蛋白质通常通过与其他分子的相互作用发挥功能，而单点突变如何改变这些相互作用，即所谓的“蛋白相互作用密码”，仍然是计算生物学中的核心难题。研究人员提出了 eSIG-Net，一种以突变为中心的相互作用语言模型，通过整合蛋白序列嵌入、语法感知与进化感知的突变编码以及对比学习策略，来预测突变引起的相互作用变化。

实验结果表明，eSIG-Net在性能上显著优于当前基于序列和结构的主流方法，不仅能够准确识别潜在的致病变异，还能够提供机制层面的解释。该模型能够仅基于序列信息预测突变引发的蛋白互作网络重构，并且在不同生物学背景下具有良好的泛化能力。

随着基因组与外显子测序技术的快速发展，研究人员已经发现了远超以往认知规模的人类遗传变异。然而，大多数变异如何影响蛋白质功能及其在疾病中的作用仍然不清楚。

在所有编码区突变中，错义突变最为常见。即使单个氨基酸的变化，也可能显著改变蛋白–蛋白相互作用，从而重塑信号网络。这种现象类似于化学中的“活性悬崖”，即微小结构变化引发巨大功能差异，在蛋白质中则表现为“相互作用悬崖”，给预测模型带来了极大挑战。

近年来，蛋白语言模型被广泛应用于功能预测任务，但现有方法仍存在明显局限。一方面，它们通常无法显式建模野生型与突变型之间的差异；另一方面，也难以刻画蛋白相互作用本身的复杂性。

基于这些问题，研究人员提出了一种新的建模范式，将蛋白突变效应理解为一种“语言变化”，通过相互作用语言模型来学习突变如何重写蛋白之间的交互规则。

方法

eSIG-Net构建了一个以突变为核心的建模框架，其关键思想是同时建模三种信息：野生型蛋白、突变型蛋白以及它们与相互作用伙伴之间的关系。

模型包含两个核心编码模块。首先是蛋白–相互作用编码模块，分别对野生型蛋白与其相互作用伙伴、突变蛋白与其相互作用伙伴进行联合编码，从而捕捉相互作用状态。其次是突变位点编码模块，利用蛋白语言模型提取突变位点的残基级表示，并通过通道级学习强化突变信息。

在此基础上，研究人员引入约束差异学习机制，专门用于捕捉野生型与突变型在嵌入空间中的细微差异。最终，模型将突变位点信息、两类相互作用编码以及差异特征融合，通过判别模块预测突变是否导致相互作用改变。

与传统方法不同，该框架并不直接预测相互作用本身，而是专注于学习突变前后相互作用的变化，从而更精准地刻画突变效应。

图1：eSIG-Net模型结构与相互作用语言建模框架。

结果

与序列方法的性能对比

研究人员首先在疾病相关突变数据集上对模型进行评估。结果表明，eSIG-Net在预测准确率上显著优于多个主流序列模型，包括DeepFE、D-SCRIPT、PIPR等。

根据论文第2–3页的结果，eSIG-Net在该任务中的准确率达到约0.85，而其他方法仅约为0.63左右。同时，在ROC曲线和精确率–召回率曲线分析中，模型也表现出明显优势，显示出更强的判别能力。

在另一组群体变异数据集上，模型同样保持了领先性能，说明其具有良好的泛化能力。

模型结构有效性验证

通过消融实验，研究人员验证了模型关键模块的重要性。结果显示，仅使用基础蛋白表示时，模型性能较低；加入突变位点编码后性能明显提升；进一步引入约束差异学习模块后，模型性能达到最佳。

这表明，准确建模突变前后的差异是提升预测能力的关键。

图2：模型消融实验与结构方法对比。

与结构方法的对比

研究人员进一步将eSIG-Net与多种基于结构的方法进行比较，包括基于AlphaFold结构的预测工具。

结果显示，这些结构方法在突变效应预测任务中的准确率通常低于60%，显著低于eSIG-Net。同时，在ROC和精确率–召回率分析中，eSIG-Net同样表现更优。

这一结果说明，仅依赖结构信息难以捕捉突变引起的复杂相互作用变化，而语言模型能够更有效地编码这些信息。

跨生物学场景的泛化能力

研究人员展示了模型在不同生物学背景下的应用能力。例如，在多效性基因TPM3中，不同突变会导致不同疾病。

eSIG-Net成功预测出不同突变对特定相互作用的差异性影响，从而解释了同一基因产生不同表型的分子机制。这表明模型不仅具备预测能力，还具有一定的机制解释能力。

突变功能注释与应用潜力

当前，大量基因变异仍被归类为“意义不明变异”。研究人员表明，eSIG-Net可以作为一种通用工具，对这些变异进行功能预测，并推断其是否会扰动蛋白相互作用网络。

此外，该方法可以替代部分实验手段，实现大规模体外计算突变扫描，从而显著降低实验成本并提高研究效率。

讨论

本研究提出了一种新的建模思路，即将蛋白突变效应理解为一种“相互作用语言”的变化，并通过语言模型进行学习。这种方法突破了传统基于结构或简单序列特征的限制，使模型能够更精细地捕捉突变引起的微小但关键变化。

研究人员认为，eSIG-Net的优势在于其突变中心建模策略，即直接学习野生型与突变型之间的差异，而不是单独建模相互作用状态。这种设计使其在“相互作用悬崖”问题中具有明显优势。

然而，该方法仍存在一定局限。例如，其未充分利用多序列比对中的共进化信息，同时在组织特异性或复杂疾病机制建模方面仍有提升空间。此外，蛋白相互作用变化并不一定直接导致疾病，因此仍需结合更多生物学数据进行综合分析。

总体而言，eSIG-Net展示了语言模型在蛋白突变功能预测中的巨大潜力，为理解遗传变异的分子机制以及推动精准医学提供了新的技术路径。

整理 | DrugOne团队

参考资料

Pan, X., Shrawat, A., Raghavan, S. et al. eSIG-Net: an interaction language model that decodes the protein code of single mutations. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03086-x