
蛋白质通常通过与其他分子的相互作用发挥功能,而单点突变如何改变这些相互作用,即所谓的“蛋白相互作用密码”,仍然是计算生物学中的核心难题。研究人员提出了 eSIG-Net,一种以突变为中心的相互作用语言模型,通过整合蛋白序列嵌入、语法感知与进化感知的突变编码以及对比学习策略,来预测突变引起的相互作用变化。
实验结果表明,eSIG-Net在性能上显著优于当前基于序列和结构的主流方法,不仅能够准确识别潜在的致病变异,还能够提供机制层面的解释。该模型能够仅基于序列信息预测突变引发的蛋白互作网络重构,并且在不同生物学背景下具有良好的泛化能力。

随着基因组与外显子测序技术的快速发展,研究人员已经发现了远超以往认知规模的人类遗传变异。然而,大多数变异如何影响蛋白质功能及其在疾病中的作用仍然不清楚。
在所有编码区突变中,错义突变最为常见。即使单个氨基酸的变化,也可能显著改变蛋白–蛋白相互作用,从而重塑信号网络。这种现象类似于化学中的“活性悬崖”,即微小结构变化引发巨大功能差异,在蛋白质中则表现为“相互作用悬崖”,给预测模型带来了极大挑战。
近年来,蛋白语言模型被广泛应用于功能预测任务,但现有方法仍存在明显局限。一方面,它们通常无法显式建模野生型与突变型之间的差异;另一方面,也难以刻画蛋白相互作用本身的复杂性。
基于这些问题,研究人员提出了一种新的建模范式,将蛋白突变效应理解为一种“语言变化”,通过相互作用语言模型来学习突变如何重写蛋白之间的交互规则。
方法
eSIG-Net构建了一个以突变为核心的建模框架,其关键思想是同时建模三种信息:野生型蛋白、突变型蛋白以及它们与相互作用伙伴之间的关系。
模型包含两个核心编码模块。首先是蛋白–相互作用编码模块,分别对野生型蛋白与其相互作用伙伴、突变蛋白与其相互作用伙伴进行联合编码,从而捕捉相互作用状态。其次是突变位点编码模块,利用蛋白语言模型提取突变位点的残基级表示,并通过通道级学习强化突变信息。
在此基础上,研究人员引入约束差异学习机制,专门用于捕捉野生型与突变型在嵌入空间中的细微差异。最终,模型将突变位点信息、两类相互作用编码以及差异特征融合,通过判别模块预测突变是否导致相互作用改变。
与传统方法不同,该框架并不直接预测相互作用本身,而是专注于学习突变前后相互作用的变化,从而更精准地刻画突变效应。

图1:eSIG-Net模型结构与相互作用语言建模框架。
结果
与序列方法的性能对比
研究人员首先在疾病相关突变数据集上对模型进行评估。结果表明,eSIG-Net在预测准确率上显著优于多个主流序列模型,包括DeepFE、D-SCRIPT、PIPR等。
根据论文第2–3页的结果,eSIG-Net在该任务中的准确率达到约0.85,而其他方法仅约为0.63左右。同时,在ROC曲线和精确率–召回率曲线分析中,模型也表现出明显优势,显示出更强的判别能力。
在另一组群体变异数据集上,模型同样保持了领先性能,说明其具有良好的泛化能力。
模型结构有效性验证
通过消融实验,研究人员验证了模型关键模块的重要性。结果显示,仅使用基础蛋白表示时,模型性能较低;加入突变位点编码后性能明显提升;进一步引入约束差异学习模块后,模型性能达到最佳。
这表明,准确建模突变前后的差异是提升预测能力的关键。

图2:模型消融实验与结构方法对比。
与结构方法的对比
研究人员进一步将eSIG-Net与多种基于结构的方法进行比较,包括基于AlphaFold结构的预测工具。
结果显示,这些结构方法在突变效应预测任务中的准确率通常低于60%,显著低于eSIG-Net。同时,在ROC和精确率–召回率分析中,eSIG-Net同样表现更优。
这一结果说明,仅依赖结构信息难以捕捉突变引起的复杂相互作用变化,而语言模型能够更有效地编码这些信息。
跨生物学场景的泛化能力
研究人员展示了模型在不同生物学背景下的应用能力。例如,在多效性基因TPM3中,不同突变会导致不同疾病。
eSIG-Net成功预测出不同突变对特定相互作用的差异性影响,从而解释了同一基因产生不同表型的分子机制。这表明模型不仅具备预测能力,还具有一定的机制解释能力。
突变功能注释与应用潜力
当前,大量基因变异仍被归类为“意义不明变异”。研究人员表明,eSIG-Net可以作为一种通用工具,对这些变异进行功能预测,并推断其是否会扰动蛋白相互作用网络。
此外,该方法可以替代部分实验手段,实现大规模体外计算突变扫描,从而显著降低实验成本并提高研究效率。
讨论
本研究提出了一种新的建模思路,即将蛋白突变效应理解为一种“相互作用语言”的变化,并通过语言模型进行学习。这种方法突破了传统基于结构或简单序列特征的限制,使模型能够更精细地捕捉突变引起的微小但关键变化。
研究人员认为,eSIG-Net的优势在于其突变中心建模策略,即直接学习野生型与突变型之间的差异,而不是单独建模相互作用状态。这种设计使其在“相互作用悬崖”问题中具有明显优势。
然而,该方法仍存在一定局限。例如,其未充分利用多序列比对中的共进化信息,同时在组织特异性或复杂疾病机制建模方面仍有提升空间。此外,蛋白相互作用变化并不一定直接导致疾病,因此仍需结合更多生物学数据进行综合分析。
总体而言,eSIG-Net展示了语言模型在蛋白突变功能预测中的巨大潜力,为理解遗传变异的分子机制以及推动精准医学提供了新的技术路径。
整理 | DrugOne团队
参考资料
Pan, X., Shrawat, A., Raghavan, S. et al. eSIG-Net: an interaction language model that decodes the protein code of single mutations. Nat Methods (2026).
https://doi.org/10.1038/s41592-026-03086-x
