
DRUGONE
RNA三维结构及其构象的预测仍然是结构生物学中的核心挑战,这主要源于实验数据稀缺、RNA分子本身具有高度柔性,以及现有实验与计算方法的局限性。针对这一问题,研究人员提出了一种端到端的深度学习方法——trRosettaRNA2。
该方法的核心思想在于充分利用丰富的二级结构数据,通过引入一个在大规模二级结构数据上预训练的模块,生成具有信息量的碱基配对先验。同时,模型通过结构感知注意力机制,将这些先验信息直接融入三维结构预测过程中,从而实现RNA三维结构及其多构象的联合预测。
系统评估表明,trRosettaRNA2在多个基准测试中优于现有方法,同时所需参数量和计算资源显著减少。更重要的是,该模型能够灵活整合不同来源的二级结构信息,从而不仅提升结构预测精度,还能有效探索RNA的构象空间。在CASP16盲测中,基于该方法的Yang-Server取得自动服务器第一名,性能甚至超过AlphaFold 3。对RNase P RNA的应用进一步表明,该方法能够在无需实验数据的情况下捕捉RNA结构的异质性,展示了其在RNA构象集合预测中的巨大潜力。

RNA结构的解析对于理解生命过程至关重要,但由于其结构柔性和不稳定性,实验解析难度极高。因此,过去几十年中,研究人员持续开发计算方法来预测RNA结构。近年来,深度学习的引入显著提升了预测精度。
已有方法如trRosettaRNA、DeepFoldRNA以及AlphaFold 3等,在一定程度上推动了该领域的发展。然而,这些方法仍面临三大核心挑战:首先,RNA三维结构数据在数据库中极为稀缺,限制了数据驱动方法的性能;其次,RNA多序列比对质量较低,难以捕捉结构保守性;最后,RNA本身具有更强的构象动态性,而现有方法往往忽略这一点。
与此同时,一些方法尝试结合实验数据预测RNA构象,但在缺乏实验信息的情况下实现从头预测构象集合仍然极具挑战。
研究人员注意到,RNA折叠具有明显的层级特性,即二级结构为三维结构提供基础。因此,利用丰富的二级结构数据可能成为突破三维结构预测瓶颈的重要路径。
基于这一认识,研究人员提出trRosettaRNA2,将二级结构预测与三维结构建模紧密结合,从而实现更高精度、更强泛化能力以及对构象多样性的刻画。
方法
trRosettaRNA2采用端到端架构,将RNA三维结构预测划分为四个关键模块:二级结构先验模块、RNAformer编码模块、结构预测模块以及后处理优化步骤。
首先,从RNA序列出发构建多序列比对,并编码为特征表示。随后,通过在大规模bpRNA数据上预训练的二级结构模块,生成碱基配对概率作为先验信息。这些信息与序列特征共同输入RNAformer网络进行编码和迭代更新。
RNAformer采用双轨Transformer结构,分别建模一维序列信息与二维配对信息,并通过注意力机制不断交互更新。这一过程为后续三维结构预测提供了丰富的几何约束。
在此基础上,结构模块利用结构感知注意力机制,将二级结构信息直接融入注意力计算中,从而引导模型更准确地学习核苷酸之间的空间关系,最终预测全原子三维坐标。
为了保证物理合理性,预测结构会经过快速能量优化,包括键长校正与空间冲突消除。整个流程既支持端到端预测,也支持基于几何约束的能量最小化建模。
值得注意的是,该框架中的二级结构模块不仅作为辅助信息来源,还可独立作为高性能二级结构预测工具。

图1:trRosettaRNA2整体框架。
结果
RNA三维结构预测性能
在TS28基准数据集上,trRosettaRNA2显著优于其前身trRosettaRNA。端到端模型平均RMSD降低约20%,进一步结合二级结构先验后性能持续提升。
相比其他方法,trRosettaRNA2在71.4%的测试目标上取得更优结果,并在多个评价指标上实现整体提升。同时,基于能量优化的版本在结构合理性方面进一步改善,最终平均RMSD达到8.66 Å。
这一结果表明,端到端架构与二级结构先验的结合对于RNA结构预测具有显著价值。
与其他方法的比较
与DeepFoldRNA、RoseTTAFoldNA、RhoFold+及AlphaFold 3相比,trRosettaRNA2表现出竞争性甚至优势性能。其在RMSD与局部精度指标上优于AlphaFold 3,同时在整体指标上稳定超过其他方法。
值得关注的是,该方法仅使用约3000万参数,远低于AlphaFold 3等模型,训练成本也大幅降低,显示出极高的效率优势。
在具体案例中,trRosettaRNA2能够正确预测复杂RNA结构的空间构型,并显著减少结构冲突问题,说明其不仅精度高,而且物理合理性更强。

图2 :方法性能对比。
CASP16盲测表现
在CASP16评测中,Yang-Server(基于trRosettaRNA2)在自动服务器中排名第一,在所有参赛队伍中位列前列。
相比之下,基于AlphaFold 3的方法排名明显靠后。进一步分析表明,trRosettaRNA2在全局与局部指标上均表现优异,并显著减少结构冲突。
该结果验证了该方法在真实未知结构预测中的强大泛化能力。

图3:CASP16结果。
RNA构象空间预测能力
RNA通常不是单一静态结构,而是多个构象的集合。trRosettaRNA2通过引入不同二级结构输入,成功生成多样化结构集合。
在RNase P RNA案例中,模型生成的构象集合在动态性上与实验数据高度一致,尤其是在高度可变的结构区域表现出良好一致性。
相比之下,AlphaFold 3生成的结构高度集中,无法反映真实的构象多样性。
进一步分析表明,结构多样性来源于二级结构输入的变化以及模型内部循环机制的协同作用,从机制层面解释了模型能够捕捉构象异质性的原因。

图4:RNase P构象空间分析。
讨论
研究人员提出的trRosettaRNA2在RNA三维结构预测领域取得了重要进展。该方法不仅在精度上超越传统方法,还在计算效率和模型规模上具有显著优势。
其核心创新在于将二级结构信息深度整合进三维结构预测过程,使得模型能够在数据稀缺条件下仍然保持高性能。此外,该方法在构象集合预测方面展现出独特优势,为研究RNA动态行为提供了新工具。
然而,当前方法仍存在一定局限,例如对RNA-蛋白复合物和人工设计RNA的预测能力仍有待提升。未来,结合实验数据(如cryo-EM或AFM)以及模板信息,可能进一步提升模型性能。
总体而言,trRosettaRNA2为RNA结构与构象预测提供了一种高效、准确且具有扩展潜力的新范式,有望在RNA生物学与药物设计中发挥重要作用。
整理 | DrugOne团队
参考资料
Wang, W., Peng, Z. & Yang, J. Predicting RNA 3D structure and conformers using a pre-trained secondary structure model and structure-aware attention. Nat Mach Intell (2026).
https://doi.org/10.1038/s42256-026-01223-x

内容为【DrugOne】公众号原创|转载请注明来源