
在RNA-seq、微阵列等基因差异表达分析中,DESeq2、edgeR和limma是最常用的三大工具。之前我们分别介绍了这三款软件,它们都可以在Galaxy云平台(网址:usegalaxy.cn)方便地使用。但不同类型的数据在软件选择上存在差异,即便是利用便捷的在线工具,也应当关注选用不同软件可能对结果产生的不同影响。但究竟该用哪一个?本文将从数据类型、样本量、算法原理到可视化方法等,带你看懂它们的核心差异。
这三款软件,由于采用了不同的统计模型和前提假设,因此各自适用于特定的数据特征和分析场景。它们在对离散度管理、低表达基因的处理等方面展现出显著的不同,可以根据以下具体情况选择:
情况描述 | 推荐工具 |
|---|---|
单细胞RNA-seq | DESeq2 |
微阵列数据 | limma |
跨组学联合分析 | edgeR |
同时分析mRNA+miRNA | limma |
需要复杂实验设计 | edgeR |
3组生物学重复样本 | DESeq2/edgeR |
样本少且质量差 | DESeq2 |
样本量>7/组 | limma |
大数据集(>100样本) | limma+DESeq2组合 |
原始计数 | DESeq2/edgeR |
分析差异剪接 | limma |
关注低表达基因 | edgeR |
voom处理RNA-Seq)estimateGLMTagwiseDisp函数,用全基因组信息修正单个基因离散度voom权重转换 → 线性建模 → 经验贝叶斯调整。 limma的diffSplice函数可同时检测差异表达和差异剪接。特性 | DESeq2 | edgeR | limma |
|---|---|---|---|
输入要求 | 原始计数矩阵 | 原始计数矩阵 | 标准化后的表达矩阵 |
最小样本量 | 3个/组(推荐≥5) | 2个( 4-6个/组最佳 ) | 7(≥10个/组) |
优势场所 | 小样本、测序深度低 | 低计数基因、技术重复 | 大规模数据、多组比较 |
数据类型 | 原始数据(overdispersed count数据) | 原始计数矩阵 | 标准化后的表达矩阵 |
默认检验方法 | Wald检验(负二项分布拟合趋势线) | 准似然F检验(广义线性模型 ) | 经验贝叶斯t检验(线性建模) |
离散度处理 | 基因间+基因内双重调整 | 基因间信息共享 | 全局经验贝叶斯收缩 |
多重检验校正 | Benjamini-Hochberg | Benjamini-Hochberg | Bonferroni 自适应t分布调整 |
特色功能 | 自动过滤低表达基因 | 支持零膨胀权重 | 差异剪接分析 |
内存占用 | 较高 | 中等 | 较低 |
-注:limma在≥7样本/组时,其经验贝叶斯方差收缩算法能显著提升统计效能。