
DRUGONE
RNA–蛋白复合物的结构预测在揭示基因调控与疾病机制中具有重要意义。然而,现有基于统计势能的打分函数在处理构象柔性方面表现不足。虽然卷积神经网络(CNN)已经在该领域展现潜力,但图深度学习在生物分子结构与功能预测任务中通常表现更佳。研究人员提出了 EGARPS+,一种基于等变图神经网络与注意力机制的 RNA–蛋白复合物打分算法。该方法结合了分子内和分子间模块,并引入了此前未被广泛利用的序列、结构及相互作用特征。EGARPS+ 在多个基准数据集上均优于 CNN 和传统方法,尤其在应对较大构象变化、小界面以及低结构相似性的复合物时表现突出。此外,该方法还能提高 RoseTTAFoldNA 与 AlphaFold3 等工具的预测效果。可解释性分析揭示了保守基序与氢键在 RNA–蛋白互作中的关键作用。

RNA 与蛋白质的相互作用在转录后调控、蛋白质合成等生命过程中扮演核心角色。这类互作的失调往往与遗传疾病、肿瘤等密切相关。解析 RNA–蛋白复合物结构,有助于揭示分子机制,但实验手段昂贵且耗时,导致已解析的结构数量有限。计算方法因而成为重要替代途径,其中分子对接由构象采样与打分两步组成,而打分函数的准确性直接决定了能否识别接近天然的结构。
传统打分方法主要分为两类:统计势能方法和机器学习方法。前者依赖已知复合物界面的统计规律,后者近年来引入深度学习,如 CNN 模型 DRPScore。但 CNN 仅使用有限的原子特征,无法充分表征界面特性。相比之下,图神经网络能够更好地处理生物大分子的空间关系,因此具有天然优势。基于此,研究人员设计了新一代图学习模型 EGARPS+,用于精确评估 RNA–蛋白复合物结构。
结果
EGARPS+ 框架设计
EGARPS+ 同时提取分子内与分子间特征:
通过多层注意力池化,模型能够学习 RNA 与蛋白质在界面处的互补性和相互作用模式。

基准数据集性能评估
在三个测试集上,EGARPS+ 的表现均优于现有方法:

与现有方法的比较优势
EGARPS+ 的优势主要体现在三方面:

在“折叠后对接”策略中的应用
研究人员测试了使用预测 RNA 与蛋白质结构进行对接的情境。结果显示,EGARPS+ 虽在 Top 1 成功率上略逊于部分统计方法,但在 Top 5 至 Top 500 范围内显著优于所有对照,体现了其在结构质量较差时的鲁棒性。

提升 de novo 预测准确性
当 EGARPS+ 用于重新排序 RoseTTAFoldNA 和 AlphaFold3 生成的候选结构时,能够有效挑选出更接近天然的构象,显示其在实际结构预测流程中的实用价值。

可解释性与消融实验
注意力机制分析表明:
消融实验进一步验证了各模块与特征的重要性,其中序列特征和分子内模块对性能贡献最大。

讨论
EGARPS+ 展示了图学习方法在 RNA–蛋白复合物打分中的强大潜力。与传统势能方法相比,它能够更好地处理柔性和复杂界面;与 CNN 模型相比,则在特征表达与预测准确性上均有显著优势。
该方法的亮点包括:
研究人员指出,现有模型主要关注界面区域,而未充分利用非界面信息。未来若能结合完整复合物的全局特征,或将进一步提升预测性能。
总体而言,EGARPS+ 提供了一种高效、可解释且具有广泛适用性的 RNA–蛋白复合物结构打分工具,为深入理解 RNA–蛋白互作机制和推动结构预测研究提供了新思路。
整理 | DrugOne团队
参考资料
Jiang, Zheng, Ye Zhang, Guipu Yang, and Rong Liu. "Graph Learning-Based Scoring of RNA–Protein Complex Structures." Journal of Chemical Theory and Computation (2025).
内容为【DrugOne】公众号原创|转载请注明来源