
文件1:xstreme.TSV
文件2:xstreme.html,
文件3-4:streme_tomtom_out、meme_tomtom_out(Tomtom工具比对结果)核心文件
progress.log:记录分析过程中的关键步骤和时间戳,便于追踪分析进度和调试问题。sea_msgs.txt / streme_msgs.txt:分别记录SEA和STREME模块的运行日志,包含警告、错误或重要提示信息。
二、单个文件介绍
表格是来自 motif 富集分析工具(如 XSTREME,STREME 或 MEME) 的输出结果,用于识别在一组 DNA 序列中显著富集的转录因子结合位点(motif)。下面是对每一列含义的详细解释:

是否为“种子 motif”(即由 STREME 等工具从头发现的核心 motif)。- 1:是种子 motif(由 STREME 发现)- 0:不是种子 motif(可能是 MEME 发现的,或来自其他来源)以第一行为例:
11 STREME 7-CTGCCTCAGCCTCC STREME-7 CTGCCTCAGCCTCC 144921.28E-1473.57E-161 db/.../JASPAR2024... MA1596.1 (ZNF460) https://jaspar...
列名 | 含义 | 说明 |
|---|---|---|
Motif Logo | motif 的序列标识图(Sequence Logo) | 可视化展示每个位置上 A/C/G/T 的偏好程度,高度越高表示该碱基越保守、越重要。 |
Motif Source | motif 来源 | - STREME:由 STREME 从头发现的新 motif- 若显示如 JASPAR:MA1516.2,则表示直接来自数据库(但此处应为 STREME 发现的) |
Rank | 排名 | 按富集显著性(通常按 E-value 或 p-value)排序,Rank 1 最显著。你提到“3 best STREME motifs”,所以这里只展示前 3 名。 |
E-value | 期望值(Expectation value) | 表示在随机数据中预期出现如此强富集的次数。E-value ≤ 0.05 被认为统计显著(即不太可能是偶然出现)。例如:E = 1e-10 → 极显著;E = 0.03 → 显著;E = 0.5 → 不显著。 |
Positional Distribution | 位点在序列中的位置分布图 | 显示 motif 在输入序列中的出现位置偏好。 |
Matches per Sequence | 平均每条序列中匹配到的 motif 数量 | 反映 motif 的普遍性。例如:0.8 表示约 80% 的序列至少包含 1 个该 motif。数值高说明广泛存在。 |
Similar Known Motifs | 与已知转录因子 motif 的相似性 | 通常是 TOMTOM 比对结果,格式如:MA1516.2 (KLF3) [q=0.02]表示该新 motif 与 JASPAR 中 KLF3 的结合谱高度相似,且 q-value = 0.02(显著)。这是功能注释的关键:告诉你“这可能是哪个 TF 的结合位点”。 |
Sites | motif在基因上的分布 | 在所有输入序列中,motif在基因上的分布 |
show more选项:一个motif可能有相似的motif序列,并且是来自MEME或者STREME分析结果,并按照E-Value值的显著性排列。并给出每一个类似motif的最相关的top3已知的转录因子motif。

Tomtom的作用:已知 motif 数据库(如 JASPAR、HOCOMOCO)中的所有 motif 进行比对,找出最相似的已知 TF
在输出文件中,没有xstreme_tomtom_out文件夹,只有streme_tomtom_out、meme_tomtom_out两个文件夹,里面有TSV格式表格文件与html网页文件。网页文件如下

TOMTOM 工具结果界面的一部分。下面逐列解释这些字段的含义,并说明其在分析中的作用:
列名 | 含义 | 详细说明 |
|---|---|---|
Database | 查询所用的 motif 数据库名称 | 例如:- streme.xml:表示你将自己的 STREME 发现的 motifs 作为“数据库”进行比对(即 motif vs motif 自比)- 若为 JASPAR2024_CORE_vertebrates.meme,则表示比对的是 JASPAR 数据库 |
ID | 查询 motif 的 ID(Query Motif ID) | 这是你输入给 TOMTOM 的 query motif 的标识符。例如:1-GCCTGTAATCCCAGC 表示这是 STREME 发现的第 1 个 motif,其 consensus 序列为 GCCTGTAATCCCAGC。 |
Alt. ID | 查询 motif 的替代 ID(Alternative ID) | 通常是工具内部更简洁的命名,便于引用。例如:STREME-1 对应上面的 1-GCCTGTAATCCCAGC。 |
Preview | motif 序列 logo 预览(图形) | 在网页界面中会显示一个小的 sequence logo 图标,让你直观看到该 motif 的碱基偏好。 |
Matches | 匹配到的相似 motif 数量 | 表示该 query motif 在指定数据库中找到了 多少个显著相似的 target motifs。 |
List | 相似 motif 的列表 | 列出所有显著匹配的 target motif,格式为:数据库ID (转录因子名称)例如:- MA0467.3 (Crx) → JASPAR 中 Crx 转录因子的 motif- MA2125.1 (Zfp809) → 小鼠 Zfp809 的 moti 注意:虽然 Database 是 streme.xml,但这里的 MAxxxx.x ID 表明——实际上 TOMTOM 同时比对了外部数据库(如 JASPAR) |

问题1:SEA 和 TOMTOM 分析差异
在XSTREME文本结果中存在SEA(Site Enrichment Analysis) 相关列信息SEA_PVALUE,SEA和 TOMTOM 是 MEME Suite 中两个功能不同但互补的分析工具,它们回答的是不同类型的问题。下面详细解释它们的区别和联系:
“这个 motif 在我的目标序列中是否显著富集(相比背景)?”
目标序列集(如差异表达基因启动子)中出现的频率是否显著高于随机预期。
EVALUE:校正后的期望值(考虑数据库大小等)用途:判断某个 motif 是否可能在你的生物学背景下起调控作用。
“我这个 motif 和数据库里哪些已知转录因子的结合谱相似?”
(如 JASPAR、HOCOMOCO)中的所有 motif 进行比对,找出最相似的已知 TF。
Target_ID:匹配到的数据库 motif ID(如 MA1516.2 = KLF3)p-value / E-value / q-value:相似性统计显著性Query_consensus vs Target_consensus:序列对比Overlap:比对上的碱基数Orientation:是否反向互补(-表示反向)用途:给新发现的 motif 注释功能身份(比如“这很像 KLF3 的结合位点”)。
GCCGGGCGTGGTGGC)所以:SEA 说明“它重要”,TOMTOM 说明“它是谁”。
Query | 匹配到 | Target_consensus | q-value | 解读 |
|---|---|---|---|---|
GCCGGGCGTGGTGGC | MA1516.2 (KLF3) | GGGCGTGGTC | 0.14 | 最佳匹配之一,但 q-value > 0.05,边缘显著.这些都属于 KLF/SP 家族,识别 GC-rich 序列.同样匹配 SP3、KLF6(MA1515.2)、KLF8(MA1517.2)等 |
注意:你的 query 是
GCCGGGCGTGGTGGC,核心是GGGCGTGG—— 典型的 KLF/SP 家族结合位点(如GGGGCGG或CCMCCC类型)。
虽然 TOMTOM 的 q-value(FDR 校正后)未达严格显著(通常 < 0.05),但由于多个 KLF 家族成员都给出相似匹配,且 SEA 富集极强,仍可合理推测 KLF 家族 TF(如 KLF3)可能参与调控。
特性 | SEA | TOMTOM |
|---|---|---|
目的 | 检验 motif 是否富集 | 比对 motif 与已知 TF |
问题 | “它重要吗?” | “它像谁?” |
输入 | motif + 目标/背景序列 | query motif + motif 数据库 |
输出重点 | p-value, E-value(富集强度) | p-value, q-value(相似性) |
依赖关系 | 独立分析 | 通常在发现新 motif 后使用 |
生物学意义 | 功能相关性证据 | 身份注释(TF 预测) |
问题2:XSTREME文件中的SIM_MOTIF 和 TOMTOM 分析motif 哪一个更重要
XSTREME 的 SIM_MOTIF 和 TOMTOM 的结果都用于 motif 注释(即“这个新 motif 最像哪个已知 TF”),但它们的计算方式、用途和可靠性有所不同。
下面我将从 原理、可靠性、使用建议 三个层面帮你判断:到底该以哪个结果为准?
优先看 TOMTOM 的结果,而不是 XSTREME 表中的
SIM_MOTIF。 因为 TOMTOM 是专门设计用于 motif 比对的工具,其统计更严谨、比对更细致;而 XSTREME 表中的SIM_MOTIF通常是简化版或快速匹配的结果,可能仅基于 consensus 序列字符串相似性,而非完整的 PWM(位置权重矩阵)比对。
项目 | XSTREME 中的 SIM_MOTIF | TOMTOM |
|---|---|---|
目的 | 快速给出一个“最像”的已知 motif 作为参考 | 系统性地比对 query motif 与数据库中所有 motif |
比对基础 | 可能仅基于 consensus 序列 或粗略打分(取决于工具实现) | 基于 完整的 PWM(位置频率/权重矩阵) 进行动态规划比对 |
统计指标 | 通常无详细 p/q-value,或仅为近似值 | 提供 p-value、E-value、q-value(FDR 校正) |
方向性 | 一般不考虑反向互补 | 明确标注 Orientation(+ / -) |
重叠区域 | 不显示 | 显示 Overlap 长度 |
可靠性 | 较低(适合初筛) | 高(标准注释方法) |
是否可调参数 | 否 | 是(如 -dist pearson, -thresh, -min-overlap 等) |
CONSENSUS: CCACCACGCCCGGCT
SIM_MOTIF: MA1516.2 (KLF3)
Query: GCCGGGCGTGGTGGC
Match: MA1516.2 (KLF3), q-value = 0.14, Overlap=10, Orientation=-
虽然两者都指向 KLF3 (MA1516.2),但:
Orientation = -)所以 TOMTOM 提供了更全面、可评估的证据。
问题 | 推荐做法 |
|---|---|
最终以哪个 motif 注释为准? | TOMTOM 结果 |
XSTREME 的 SIM_MOTIF 有用吗? | 有,但仅作初步参考或交叉验证 |
TOMTOM q-value 不显著怎么办? | 结合 SEA 富集强度 + 生物学背景综合判断 |
多个 TF 匹配同一个 motif? | 很常见(尤其 KLF/SP 家族),需结合表达和功能数据筛选 |
🔬 科研不止于工具,更在于思路。选择正确的工具,才能让数据说话。
【超级增强子系列文章】
超级增强子系列1:super enhancer鉴定-ROSE软件的安装与使用
超级增强子系列2:ROSE准备gff文件:peak 信息文件转化为9列gff格式文件R代码
超级增强子系列3:R语言批量处理ROSE文件生成SE与TE.bed文件
超级增强子系列5:用ChIPseeker进行超级增强子基因注释
超级增强子系列6:GREAT-基因组调控元件专业注释富集工具
如果你觉得这篇博文对你有帮助,请点赞、收藏、转发!支持我们持续输出优质内容!
关注“三兔测序学社”,获取更多实用教程与前沿解读。