
DRUGONE
结构性RNA包含大量循环区域中的短三维结构单元,这些非Watson–Crick相互作用有助于将双螺旋组装成完整的三级结构。研究人员提出了 CaCoFold-R3D,一种概率文法框架,可以在给定序列或比对的条件下同时预测RNA二级结构与三维基序。该方法利用比对中的进化协变信息,可靠识别经典双螺旋(包括假结),并通过新引入的R3D文法约束三维基序的定位。预测范围几乎覆盖所有已知的RNA基序(50余种),它们可出现在任意非螺旋环区域,最终被整合进单一预测结构中,实现真正的“一体化”预测。结果显示,CaCoFold-R3D不仅能够作为RNA三维结构预测的有效工具,还可作为深度学习全原子预测的输入,并为RNA设计与药物靶点开发提供有力支持。

非编码RNA在多种细胞过程中发挥关键作用,其功能依赖于保守的三维结构。RNA结构呈现层级性:首先由典型Watson–Crick碱基对构成二级结构(双螺旋与假结),随后通过环和连接区域组织成三维结构。这些环状区域即RNA三维基序,通常短小、包含重复出现的非典型碱基对模式,且具有特定序列保守性。由于其结构特征与连接螺旋相对独立,精确识别三维基序对于从序列推断完整RNA结构至关重要。然而,基序体积小、序列多样性高,且常常不连续分布,使其难以直接预测。因此,将三维基序与二级结构预测整合是一项长期未解的挑战。
方法
研究人员开发了 CaCoFold-R3D,这是一个计算高效的概率模型,可以同时预测RNA的二级结构与三维基序。该框架依赖比对中的协变信号:虽然三维基序内部缺乏显著协变,但其边界螺旋往往受到协变约束,从而限定了基序可能出现的位置。CaCoFold-R3D通过一系列随机上下文无关文法(SCFGs)建模RNA结构,同时结合隐马尔可夫模型(HMMs)表征序列保守性。模型可覆盖超过96种不同的基序变体,包括发卡环、鼓包环、内部环、三岔与四岔连接等。最终输出为同时包含双螺旋、假结与三维基序的整体结构预测。
结果
CaCoFold-R3D的独特优势
该方法具有多个前所未有的特性:能够处理任意环区基序;所有基序在单一概率模型下“一次性”预测;能够对整个RNA家族比对进行建模,捕捉基序的序列变异性;计算效率高,并具备新基序发现潜力。最重要的是,方法利用进化信息提升预测准确性与置信度。

RBGJ3J4-R3D模型
研究人员构建了 RBGJ3J4-R3D文法,可同时推断嵌套的双螺旋与环区内的三维基序。它特别针对三岔与四岔连接进行了建模,能够描述在多种功能性RNA分子中出现的重要基序。

R3D基序文法
研究人员进一步设计了六类基序文法,分别对应发卡环、鼓包环、内部环、三岔、四岔与多支路片段。通过SCFG与HMM的结合,模型既能描述基序的结构模式,又能容纳序列多样性。


原型验证(R3D-prototype)
研究人员首先在简化原型上测试了GNRA发卡环和K-turn内部环。结果表明,引入协变信息后,基序检测灵敏度显著提升(84%→95%),并有效降低了假阳性率。这验证了以进化信息约束基序预测的有效性。

大规模测试与性能
CaCoFold-R3D在Rfam数据库的种子比对上进行了系统测试,能够成功识别大多数已知基序,包括5S rRNA中的GNRA发卡环、SAM核开关中的K-turn等。整体上共检测到2,124个基序,其中1,460个具有协变支持,显著高于随机对照,假发现率低于10%。在大亚基与小亚基核糖体RNA中,分别识别出超过60和40个有支持的三维基序。
与现有方法比较
与RMDetect、BayesPairing等方法相比,CaCoFold-R3D不仅预测范围更广,而且能在单一框架内同时识别多种基序,并保持较低的计算成本。不同于需要逐一指定或训练的模型,CaCoFold-R3D具备更好的通用性与扩展性。
讨论
研究人员提出的CaCoFold-R3D代表了一类全新的RNA折叠模型,将三维基序预测与二级结构预测自然整合在一起。方法的核心在于利用进化协变信息作为约束,从而显著降低假阳性并增强结果可信度。这一框架为RNA结构研究和新基序发现提供了高效工具,同时也为深度学习的全原子RNA预测与RNA靶点设计提供了重要输入。研究人员认为,该方法不仅能够丰富对RNA结构复杂性的理解,还将在未来RNA药物开发与结构生物学研究中发挥广泛作用。
整理 | DrugOne团队
参考资料
Karan, A., Rivas, E. All-at-once RNA folding with 3D motif prediction framed by evolutionary information. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02833-w
内容为【DrugOne】公众号原创|转载请注明来源