Nature | MPRA联合深度学习破解人类启动子调控语法密码

DrugAI

发布于 2026-03-03 17:08:33

850

DRUGONE

启动子是调控基因转录的核心元件，其序列结构决定了基因表达强度与响应特性。研究人员提出了一种结合大规模并行报告基因实验(MPRA)与深度学习的轻量级建模框架PARM，能够仅基于DNA序列精准预测人类启动子的自主活性。PARM 不仅在多种细胞类型中实现了高精度预测，还可生成全新高活性人工启动子，并系统解析转录因子结合位点、空间偏好及复杂调控语法结构。该方法为理解人类启动子的动态调控机制提供了一种高效而经济的策略。

人类启动子通常由转录起始位点及其上游数百碱基构成，包含多个可被转录因子识别的短序列基序。

构建能够从DNA序列直接预测启动子活性的模型长期面临挑战：

传统深度学习模型依赖大规模表观基因组数据；
数据计算成本高，且多为相关性而非因果信息；
难以推广到新细胞类型或刺激条件。

MPRA 技术可在单一细胞类型中直接测量大量DNA片段的调控活性，为建立因果预测模型提供理想数据基础。

PARM 模型构建与验证

研究人员利用覆盖全基因组的大规模 MPRA 数据：

每个启动子区域由大量重叠DNA片段测量活性；
构建基于卷积神经网络的序列到活性预测模型。

主要特点：

不依赖任何先验调控信息；
针对不同细胞类型分别训练模型。

结果显示：

启动子活性预测与实验测量高度一致；
能准确预测单个DNA片段活性；
在不同实验平台与细胞环境下保持稳健性。

图1：PARM模型原理与预测验证结果。

人工启动子的自动设计

研究人员结合遗传算法与 PARM 预测能力：

从随机DNA序列出发
反复突变、重组与筛选高预测活性序列

最终生成多种：

与天然最强启动子相当的人工启动子

实验验证表明：

预测高活性序列确实具有强转录能力
关键碱基突变会显著削弱功能

这些人工启动子不与人类基因组已有序列相似，说明模型真正学会了调控语法规则。

功能性转录因子调控位点解析

通过系统突变模拟，PARM 在全基因组启动子中识别出：

能增强活性的调控位点；
能抑制活性的调控位点。

并将其与已知转录因子结合基序匹配，结果显示：

大多数功能位点对应真实转录因子；
极少数新型调控基序被发现并实验验证。

说明模型不仅复现已知调控规律，还能发现新调控因子。

聚焦启动子的高效 MPRA 策略

为提高实验效率，研究人员构建了：启动子富集型 MPRA 文库。

特点：

仅包含启动子区域DNA片段；
文库规模大幅缩小；
覆盖所有人类启动子。

结果：

实验成本显著降低；
预测性能与全基因组文库相当；
可扩展至多细胞系及类器官体系。

图2：启动子聚焦MPRA构建流程与预测性能。

细胞类型特异性调控机制

尽管不同细胞中启动子整体活性高度相关，PARM 仍揭示出：

特定转录因子在特定细胞中发挥关键作用；
一些调控因子在某些细胞活跃、在另一些细胞失活。

例如：

肝细胞中特异性激活因子；
血液细胞相关调控网络。

模型还能比较癌细胞与类器官之间的调控差异。

图3：细胞类型特异性调控位点分布与刺激响应。

启动子对外界刺激的动态响应

研究人员分析了多种刺激条件下的调控变化：

热休克；
p53激活药物处理；
分化诱导信号。

PARM 能：

捕捉少量启动子显著变化；
精确定位被激活或抑制的转录因子家族；
揭示多因子协同调控模式。

证明该方法适用于动态调控网络解析。

转录因子基序的空间语法规律

研究人员发现：

1. 方向性影响有限

大多数转录因子基序在正反方向功能相近，仅少数例外。

2.明显位置偏好

功能性调控位点集中分布在：

TSS上游约 –120 bp 到 +10 bp 区域

不同转录因子呈现不同空间活性峰值，例如：

有的偏向紧邻TSS；
有的偏向更上游区域。

而单纯基序扫描无法揭示这些功能分布特征。

图4：功能调控位点的空间分布模式。

激活型与抑制型调控逻辑

PARM 将调控位点分为：

激活型
抑制型

结果显示：

激活位点多集中在TSS上游；
抑制位点更分散，部分位于TSS下游。

同时：

识别出以抑制为主的转录因子；
也发现大量双功能调控因子（依赖上下文切换作用）。

进一步通过系统插入基序实验验证：

同一基序在不同位置可激活或抑制转录；
功能强烈依赖序列环境与基础活性水平。

图5：调控位点激活/抑制语法及基序插入实验结果。

讨论

研究人员构建的 PARM 框架：

以极低成本获取高质量因果调控数据；
实现高精度启动子活性预测；
揭示复杂转录调控语法规律。

主要创新包括：

轻量级深度学习结合功能实验数据；
全启动子尺度的调控语法解析；
动态刺激响应建模能力。

同时也指出：

当前模型未考虑远端增强子、染色质结构等高阶调控因素；
未来可结合长程调控模型形成混合框架。

总体而言，该研究展示了功能实验数据驱动的深度学习在解析基因调控规则方面的巨大潜力，并为个性化医学与疾病机制研究提供新工具。

整理 | DrugOne团队

参考资料

Barbadilla-Martínez, L., Klaassen, N., Franceschini-Santos, V.H. et al. Regulatory grammar in human promoters uncovered by MPRA-based deep learning. Nature (2026).

https://doi.org/10.1038/s41586-025-10093-z