首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | 解读个体遗传变异的功能影响: 一种可扩展的序列–功能预测方法

Nat. Methods | 解读个体遗传变异的功能影响: 一种可扩展的序列–功能预测方法

作者头像
DrugAI
发布2026-06-11 19:40:38
发布2026-06-11 19:40:38
450
举报

DRUGONE

近年来,序列到功能(Sequence-to-Function, S2F)深度学习模型被视为理解基因调控机制的重要工具。这类模型能够直接从DNA序列预测基因表达等功能表型,并有望解释个体基因组中的遗传变异如何影响生物学功能。然而,已有研究发现,基于参考基因组训练的模型虽然能够较好地预测不同基因之间的表达差异,却难以准确捕捉不同个体之间由于遗传变异导致的表达变化。

研究人员开发了一种面向个人基因组的大规模可扩展框架——SAGE-net(Small And Good Enough Network)。该框架能够直接利用个体全基因组测序数据和转录组数据进行训练,并采用对比学习策略将基因表达拆分为“平均表达成分”和“个体差异成分”,从而专门学习个体间变异信息。研究结果表明,利用个人基因组训练确实能够提高已知基因上的表达预测精度,但这种提升主要来自模型识别了具有预测价值的变异位点,而非真正学会了一套能够跨基因座泛化的顺式调控语法。与此同时,在DNA甲基化预测任务中,个人基因组训练展现出更好的泛化能力。研究表明,开发高效、可扩展的软件平台对于推动个人基因组时代的序列–功能模型发展至关重要。

深度学习驱动的序列–功能模型近年来取得了快速发展。这些模型通过学习DNA序列与基因调控功能之间的映射关系,试图揭示基因表达、转录因子结合以及染色质状态等复杂生物学现象背后的调控规律。

与传统统计遗传学模型依赖大规模人群关联分析不同,序列–功能模型更强调机制层面的理解。理论上,只要给定任意DNA序列,模型便能够预测其潜在功能,并进一步解释序列中哪些调控元件驱动了预测结果。因此,这类模型被认为是实现个体基因组功能解读的重要基础。

然而,研究人员此前发现,以参考基因组为基础训练的模型在个人基因组预测任务上表现并不理想。虽然模型能够学习不同基因之间的表达规律,但对于个体之间微小遗传差异所带来的表达变化,其预测能力十分有限。这表明当前模型尚未真正掌握控制个体差异的调控规则。

为了解决这一问题,研究人员认为需要将全基因组测序与RNA测序配对数据直接用于模型训练,使模型能够从真实个体中学习遗传变异如何影响基因表达。但现有方法往往面临计算成本高、训练效率低以及实验迭代困难等问题,因此迫切需要一种能够在大规模个人基因组数据上高效运行的新框架。

方法

研究人员提出了SAGE-net框架。该框架包含三个核心组成部分。首先,设计了一套动态构建的数据系统,可以在训练过程中直接从个人基因组变异文件生成模型输入序列,而无需预先存储大量个体序列数据。其次,引入对比学习结构,将每个位点的基因表达分解为群体平均表达和个体偏离平均值两部分,使模型专门关注个体间差异。最后,采用轻量级卷积神经网络代替大型基础模型,通过更低的计算成本获得接近大型模型微调后的性能。

研究使用ROSMAP队列中的859名受试者皮层RNA测序数据进行训练和测试,并利用GTEx队列中的205名受试者进行外部验证。同时还构建了对应的DNA甲基化预测模型,以比较不同分子表型上的泛化能力。

结果

SAGE-net能够以远低于大型模型的成本实现竞争性预测性能

研究首先构建仅利用参考基因组训练的r-SAGE-net模型,并将其与当前代表性序列模型Enformer进行比较。

结果显示,虽然Enformer在平均基因表达预测方面仍具有优势,但r-SAGE-net在保持较高预测精度的同时,将推理时间降低约70倍。这表明轻量级卷积网络在序列–功能建模中仍具有显著价值。

在此基础上,研究人员进一步开发了面向个人基因组的p-SAGE-net模型。利用个体双倍体序列和对比学习框架进行训练后,模型在已知基因上的个体表达预测性能达到与PrediXcan以及大型模型微调版本相近的水平。对于训练集中出现过的基因,模型能够较准确地预测不同个体之间的表达差异。

图1. p-SAGE-net模型架构及其在个人基因表达预测中的表现。

个人基因组训练帮助模型发现关键调控变异

为了理解性能提升来源,研究人员利用体外突变扫描分析模型学习到的调控模式。

结果发现,在某些基因中,参考模型甚至会预测出与真实表达变化方向相反的结果,而个人基因组训练后的模型能够正确识别表达变化方向。例如在GSTM3基因附近,p-SAGE-net成功识别出一个与转录因子HLF结合相关的抑制性调控元件,并准确捕捉遗传变异破坏该结合位点后带来的表达变化。

进一步的全局序列模体分析显示,个人基因组训练使模型对远距离调控变异更加敏感,从一定程度上缓解了以往模型过度依赖近端启动子区域的问题。

模型无法泛化到未见过的基因

研究人员进一步设计了更严格的评估任务:同时预测未见个体和未见基因中的等位基因效应。这一任务要求模型真正掌握能够跨基因座迁移的调控规律,因此被认为是衡量序列理解能力的重要标准。

结果令人意外。虽然p-SAGE-net在已知基因上取得明显提升,但在未见基因上的预测能力几乎没有改善。研究团队尝试调整初始化方式、损失函数、输入长度以及网络结构,但均未能解决这一问题。

这说明当前模型获得的性能提升主要来自记忆和利用特定变异,而非学习到能够普遍适用于整个基因组的调控语法。

个体训练会导致模型遗忘跨基因调控规律

研究还发现一个值得关注的现象。随着个人基因组训练进行,模型预测不同基因平均表达水平的能力不断下降。也就是说,模型在学习个体差异时逐渐丢失了原本能够跨基因泛化的调控知识。

训练过程中,未见基因的预测性能持续下降,这表明模型发生了明显的过拟合现象。研究人员认为,当前训练策略可能使模型过度关注训练基因中的特定变异模式,而忽略了更普适的调控规律。

变异频率和样本规模显著影响预测性能

研究利用框架的动态数据构建能力,系统分析了变异频率和样本规模的影响。结果显示,低频变异对于模型预测贡献有限,而常见变异则承担了大部分预测能力。同时,不同遗传力水平的基因集合表现出明显不同的性能曲线。

在样本规模方面,高遗传力基因仅需数百个训练个体即可达到性能平台期;而遗传机制更加复杂的基因则需要更大的样本规模才能逐步学习到有效信号。

这一结果说明,不同基因的调控复杂度存在显著差异,未来大规模队列数据仍是提升模型性能的重要基础。

增加训练基因数量并未提升泛化能力

研究人员原本预期,训练更多基因能够帮助模型学习更加通用的顺式调控规则。然而实验结果与预期相反。无论按照遗传力排序逐步加入基因,还是随机增加训练基因数量,模型在核心测试基因集上的性能均出现下降。即便增加模型容量,这种现象依然存在。

这一发现进一步证明,目前模型尚未建立真正可迁移的调控语法,而更多训练数据反而可能加剧学习难度。

在DNA甲基化任务中出现了更好的泛化现象

为了探索这一问题是否与基因表达本身的复杂性有关,研究人员将框架应用于DNA甲基化预测。DNA甲基化是一种重要表观遗传修饰,其调控机制相对简单,并且拥有更大规模的队列数据支持。

结果显示,参考模型已经能够较准确预测不同基因组区域的甲基化水平。然而对于个体差异预测,参考模型仍然存在方向判断错误的问题。

经过个人基因组训练后,模型在已知区域上的性能大幅提升。更重要的是,在预测未见区域时,随着训练区域数量增加,模型泛化能力持续提高。这是基因表达任务中未曾观察到的现象。

进一步的模体分析发现,模型逐渐学习到与DNA甲基化调控相关的生物学序列模式,说明在序列多样性足够丰富的情况下,深度学习模型确实能够掌握个体间表观遗传差异的潜在规律。

图2. p-SAGE-net在不同训练条件和分子表型上的性能分析。

讨论

本研究系统评估了个人基因组训练对序列–功能模型的影响,并提出了高效可扩展的SAGE-net框架。结果表明,利用个体基因组数据训练确实能够显著提高已知基因上的表达预测能力,同时帮助模型识别具有功能意义的调控变异。

然而研究也揭示了当前领域面临的核心挑战:模型虽然能够学习特定位点的遗传效应,却难以形成能够跨基因座泛化的调控规则。换言之,现阶段的深度学习模型尚未真正掌握完整的顺式调控语法。

值得注意的是,DNA甲基化任务中出现了更好的泛化能力,这说明问题并非完全来自模型结构,而可能与基因表达调控本身涉及转录因子、染色质状态、RNA加工等多层级复杂机制有关。

研究人员认为,未来的发展方向包括利用随机DNA序列进行预训练、整合全基因组测序、转录组和表观组等多模态数据,以及构建更具生物学归纳偏置的新型模型架构。虽然目前深度学习模型尚未全面超越PrediXcan等线性方法,但其能够评估任意DNA序列、罕见变异和新生突变的独特优势,使其仍然是实现个体基因组功能解码的重要发展方向。

整理 | DrugOne团队

参考资料

Spiro, A.E., Tu, X., Sheng, Y. et al. A scalable approach to investigating sequence-to-function predictions from personal genomes. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03124-8

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档