差异表达分析三剑客：DESeq2、edgeR、limma到底该怎么选？

简说基因

发布于 2025-06-28 16:16:02

1.8K0

在RNA-seq、微阵列等基因差异表达分析中，DESeq2、edgeR和limma是最常用的三大工具。之前我们分别介绍了这三款软件，它们都可以在Galaxy云平台（网址：usegalaxy.cn）方便地使用。但不同类型的数据在软件选择上存在差异，即便是利用便捷的在线工具，也应当关注选用不同软件可能对结果产生的不同影响。但究竟该用哪一个？本文将从数据类型、样本量、算法原理到可视化方法等，带你看懂它们的核心差异。

这三款软件，由于采用了不同的统计模型和前提假设，因此各自适用于特定的数据特征和分析场景。它们在对离散度管理、低表达基因的处理等方面展现出显著的不同，可以根据以下具体情况选择：

情况描述	推荐工具
单细胞RNA-seq	DESeq2
微阵列数据	limma
跨组学联合分析	edgeR
同时分析mRNA+miRNA	limma
需要复杂实验设计	edgeR
3组生物学重复样本	DESeq2/edgeR
样本少且质量差	DESeq2
样本量>7/组	limma
大数据集(>100样本)	limma+DESeq2组合
原始计数	DESeq2/edgeR
分析差异剪接	limma
关注低表达基因	edgeR

• 注：当数据量>100样本时，先用limma快速筛选候选基因，再用DESeq2进行深度验证。

工具定位

DESeq2：小样本（侧重稳定型）

• 适用数据：专为RNA-seq原始计数数据设计，尤其擅长处理零膨胀数据和高变异基因。
• 样本量：最少3个/组（推荐≥5）
• 为什么用它：通过负二项分布模型和自动离散度估计：先极大似然估计，再拟合趋势线，最后修正异常值，特别擅长处理低重复样本。比如单细胞测序初步筛选差异基因时，即使只有3个重复也能稳定输出结果。

edgeR：灵活多变（适合精细调节）

• 适用数据：计数数据（支持无重复设计）低计数基因的「狙击手」
• 样本量：4-6个/组最佳
• 为什么用它：采用精确检验和广义线性模型，在中等样本量和复杂实验设计（比如多因素交互作用）中表现亮眼。同样基于负二项分布，但引入经验贝叶斯方法压缩离散度参数，在检测低表达差异基因时灵敏度更高。支持ChIP-seq、ATAC-seq等其他计数数据。例如研究药物剂量梯度效应时，能处理不同时间点+不同浓度的组合数据。

limma：大样本首选

• 适用数据：经过转换的标准化数据（配合voom处理RNA-Seq）
• 样本量：≥7个/组
• 为什么用它：基于线性模型和经验贝叶斯收缩，在大规模临床队列数据中计算速度碾压其他工具。limma最初为微阵列设计，通过voom转换将RNA-seq计数数据转换为连续值后，使用线性模型分析。适合处理多因素实验设计（如时间序列、药物梯度），例如在分析不同浓度药物处理的转录组数据时，可直接在模型中纳入浓度作为协变量。

算法核心差异

模型底层逻辑

• DESeq2 基因特异性离散度估计 → 负二项分布拟合趋势线 → Wald检验压缩异常值
• edgeR 跨基因离散度收缩 → 广义线性模型 → 准似然F检验。通过estimateGLMTagwiseDisp函数，用全基因组信息修正单个基因离散度
• limma voom权重转换 → 线性建模 → 经验贝叶斯调整。 limma的diffSplice函数可同时检测差异表达和差异剪接。

三者对比表

特性	DESeq2	edgeR	limma
输入要求	原始计数矩阵	原始计数矩阵	标准化后的表达矩阵
最小样本量	3个/组（推荐≥5）	2个( 4-6个/组最佳）	7（≥10个/组）
优势场所	小样本、测序深度低	低计数基因、技术重复	大规模数据、多组比较
数据类型	原始数据（overdispersed count数据）	原始计数矩阵	标准化后的表达矩阵
默认检验方法	Wald检验（负二项分布拟合趋势线）	准似然F检验（广义线性模型）	经验贝叶斯t检验（线性建模）
离散度处理	基因间+基因内双重调整	基因间信息共享	全局经验贝叶斯收缩
多重检验校正	Benjamini-Hochberg	Benjamini-Hochberg	Bonferroni 自适应t分布调整
特色功能	自动过滤低表达基因	支持零膨胀权重	差异剪接分析
内存占用	较高	中等	较低

-注：limma在≥7样本/组时，其经验贝叶斯方差收缩算法能显著提升统计效能。

可视化对比

1. 韦恩图：工具重叠比较（三工具差异基因交集）
- • DESeq2特有基因：与细胞周期相关
- • limma特有基因：涉及代谢通路
- • 三者共有基因：经典癌症标记物（如TP53）
2. 火山图：各工具显著性分布
- • DESeq2：显著性基因更集中
- • edgeR：检测到更多低表达差异基因
- • limma：分布最对称