
DRUGONE
启动子是调控基因转录的核心元件,其序列结构决定了基因表达强度与响应特性。研究人员提出了一种结合大规模并行报告基因实验(MPRA)与深度学习的轻量级建模框架PARM,能够仅基于DNA序列精准预测人类启动子的自主活性。PARM 不仅在多种细胞类型中实现了高精度预测,还可生成全新高活性人工启动子,并系统解析转录因子结合位点、空间偏好及复杂调控语法结构。该方法为理解人类启动子的动态调控机制提供了一种高效而经济的策略。

人类启动子通常由转录起始位点及其上游数百碱基构成,包含多个可被转录因子识别的短序列基序。
构建能够从DNA序列直接预测启动子活性的模型长期面临挑战:
MPRA 技术可在单一细胞类型中直接测量大量DNA片段的调控活性,为建立因果预测模型提供理想数据基础。
PARM 模型构建与验证
研究人员利用覆盖全基因组的大规模 MPRA 数据:
主要特点:
结果显示:

图1:PARM模型原理与预测验证结果。
人工启动子的自动设计
研究人员结合遗传算法与 PARM 预测能力:
最终生成多种:
实验验证表明:
这些人工启动子不与人类基因组已有序列相似,说明模型真正学会了调控语法规则。
功能性转录因子调控位点解析
通过系统突变模拟,PARM 在全基因组启动子中识别出:
并将其与已知转录因子结合基序匹配,结果显示:
说明模型不仅复现已知调控规律,还能发现新调控因子。
聚焦启动子的高效 MPRA 策略
为提高实验效率,研究人员构建了:启动子富集型 MPRA 文库。
特点:
结果:

图2:启动子聚焦MPRA构建流程与预测性能。
细胞类型特异性调控机制
尽管不同细胞中启动子整体活性高度相关,PARM 仍揭示出:
例如:
模型还能比较癌细胞与类器官之间的调控差异。

图3:细胞类型特异性调控位点分布与刺激响应。
启动子对外界刺激的动态响应
研究人员分析了多种刺激条件下的调控变化:
PARM 能:
证明该方法适用于动态调控网络解析。
转录因子基序的空间语法规律
研究人员发现:
1. 方向性影响有限
大多数转录因子基序在正反方向功能相近,仅少数例外。
2.明显位置偏好
功能性调控位点集中分布在:
不同转录因子呈现不同空间活性峰值,例如:
而单纯基序扫描无法揭示这些功能分布特征。

图4:功能调控位点的空间分布模式。
激活型与抑制型调控逻辑
PARM 将调控位点分为:
结果显示:
同时:
进一步通过系统插入基序实验验证:

图5:调控位点激活/抑制语法及基序插入实验结果。
讨论
研究人员构建的 PARM 框架:
主要创新包括:
同时也指出:
总体而言,该研究展示了功能实验数据驱动的深度学习在解析基因调控规则方面的巨大潜力,并为个性化医学与疾病机制研究提供新工具。
整理 | DrugOne团队
参考资料
Barbadilla-Martínez, L., Klaassen, N., Franceschini-Santos, V.H. et al. Regulatory grammar in human promoters uncovered by MPRA-based deep learning. Nature (2026).
https://doi.org/10.1038/s41586-025-10093-z

内容为【DrugOne】公众号原创|转载请注明来源