首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Proc. Natl. Acad. Sci. | 预训练DNA语言模型实现植物基因组跨物种建模

Proc. Natl. Acad. Sci. | 预训练DNA语言模型实现植物基因组跨物种建模

作者头像
DrugAI
发布2026-01-06 11:00:01
发布2026-01-06 11:00:01
1410
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

在多样且复杂的植物基因组中解析功能与适应性效应的能力,亟需具有可迁移性的模型。研究人员提出PlantCaduceus,这是一种植物DNA语言模型,通过同时建模双链DNA,在16种被子植物基因组上进行预训练,能够学习进化保守性序列模式。在仅使用少量拟南芥标注数据进行微调后,PlantCaduceus便可准确预测翻译起始/终止位点及剪接供体/受体位点,并展现出跨物种迁移能力,成功泛化至与拟南芥分化约1.6亿年的玉米。该模型在玉米剪接供体预测任务中比现有最佳模型性能提升1.45倍,在翻译起始位点预测中提升达7.23倍。其预测有害突变的表现也可与最先进的蛋白质语言模型媲美。PlantCaduceus预测为有害的突变,其群体中次等等位基因频率比基于多序列比对的方法低三倍。此外,该模型还能准确识别拟南芥和玉米中的致病变异。PlantCaduceus是一个通用的DNA语言模型,有望加速植物基因组学研究及育种实践。

过去20年中已有超过1000个植物基因组发表,预计未来将有大幅增长。要推进植物基因组学与育种,亟需在转录与翻译层面全面理解基因组中的功能元件与适应性影响。然而,植物基因组在大小、组成和结构上具有显著差异,甚至在近缘物种中亦如此。尽管模型植物如拟南芥、水稻和玉米已建立丰富的基因组资源,但要对所有植物构建类似资源代价极高,不具现实性,因此亟需具备跨物种泛化能力的建模工具,挖掘保守序列特征。

传统监督深度学习模型在理解DNA序列功能方面取得进展,但其依赖大规模标注数据,这在植物基因组学中往往难以获取。此外,模型物种上训练的模型难以迁移至其他物种。相比之下,语言模型可通过无监督预训练学习序列结构并实现迁移能力。蛋白质语言模型已经在结构预测、变异效应识别等方面取得成功。相比仅作用于编码区的蛋白质模型,DNA语言模型可覆盖全基因组信息,尤其是非编码区的变异对植物性状与人类疾病影响也逐渐受到重视。

不过DNA语言建模面临挑战:如重复序列丰富、非编码区保守性低、需考虑双链结构与互补序列方向等。为此,研究人员提出PlantCaduceus模型,在16个被子植物基因组上进行训练,采用支持双向建模与互补对称性的Caduceus架构,并对非编码区与重复序列进行采样策略控制,从而提升建模精度。

结果

PlantCaduceus:一个基于16个被子植物基因组的预训练DNA语言模型

研究人员构建了PlantCaduceus模型,使用Caduceus架构,在16个进化距离广泛的植物基因组上预训练,涵盖1.6亿年演化跨度。模型输入为512 bp窗口,使用掩码语言建模任务进行训练。针对重复序列与基因组大小差异问题,通过对非重复区域进行加权与采样,避免模型过拟合简单重复序列,聚焦于功能相关的编码区和非重复区。研究人员训练了多种深度的模型(20至32层),参数数量从2000万到2.25亿不等。通过可视化嵌入空间,发现即使未进行监督训练,模型也能清晰区分编码与非编码区域。

提高转录与翻译相关位点的预测精度与跨物种迁移能力

研究人员设计了四个基因注释任务(翻译起始位点、翻译终止位点、剪接供体与受体位点)来评估模型在转录与翻译建模中的表现。在拟南芥上训练后,模型在包括水稻、高粱、大豆、棉花和玉米等其他物种中保持出色性能,优于GPN、AgroNT等模型,且显著优于传统监督模型CNN+LSTM。在跨物种迁移中,PlantCaduceus的表现最为稳定(平均AUPRC为0.764),即使目标物种未参与预训练也不受影响,展示出极强的泛化能力。

进化保守性预测任务中的跨物种能力

研究人员在高粱中利用多物种比对数据标注进化保守位点,并训练模型进行保守性预测。即便在未进行监督训练的零样本情境下,PlantCaduceus也可通过参考等位基因的预测概率反映序列保守性。进一步通过XGBoost对提取的嵌入特征进行微调,PlantCaduceus在保守性预测中优于GPN、AgroNT等模型,并且在非编码区域表现尤为出色。此外,将在高粱中训练的模型迁移至玉米数据上,也获得了优异的跨物种预测结果。

零样本变异效应预测识别多个物种中的有害突变

PlantCaduceus通过预测参考与替代等位基因之间的对数似然差值,计算“零样本分数”,用于衡量突变的保守性。在玉米与高粱中,研究人员观察到在剪接、终止密码子等功能关键区域的突变拥有更负的分数,指示其潜在危害性。在真实人群群体中,这些被预测为有害的突变也表现出更低的等位基因频率,优于phyloP、phastCons等传统方法以及其他语言模型。此外,PlantCaduceus还能准确识别拟南芥中的已知因表型突变的致病位点以及玉米中“甜玉米”基因座Su1处的致因突变。

讨论

PlantCaduceus通过在16种进化距离广泛的植物基因组上进行预训练,学习了DNA序列的语言规律与保守性特征,展现出强大的跨物种预测能力。在基因注释、变异效应评估及保守性建模任务中均取得了超越现有模型的性能。相较于需要大量标注数据的监督模型,PlantCaduceus更具实用性,特别是在非模式物种研究中。

研究人员进一步发现,训练数据中物种的系统发育多样性对模型泛化能力起着关键作用。与使用48个植物物种预训练的AgroNT相比,PlantCaduceus采用了更合理的token化策略、排除了低保守性区域,并保持了更高的计算效率,从而在单点预测任务中表现更优。

PlantCaduceus在无需多序列比对的前提下,也可高效识别有害突变,捕捉调控元件,具有显著实用价值。未来,研究人员计划将预训练范围扩展至裸子植物,延长输入序列窗口,以便捕捉长程调控效应,并进一步优化重复序列的处理策略,从而推动其在植物基因组研究与作物改良中的应用前景。

整理 | DrugOne团队

参考资料

J. Zhai,A. Gokaslan,Y. Schiff,A. Berthel,Z. Liu,W. Lai,Z.R. Miller,A. Scheben,M.C. Stitzer,M.C. Romay,E.S. Buckler, & V. Kuleshov, Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model, Proc. Natl. Acad. Sci. U.S.A. 122 (24) e2421738122,

https://doi.org/10.1073/pnas.2421738122 (2025).

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档