
Seurat 和 Scanpy 是单细胞数据分析的两大工具。通常认为:同类工具分析结果都差不多。喜欢R就用Seurat,喜欢Python就用Scanpy。
但是,这篇预印本文章的结果却颠覆了人们的认知:
当都使用默认参数时,两者输出结果差异非常大。
研究通过 PBMC 数据集对比分析,发现 Seurat 与 Scanpy 在关键分析步骤中存在明显分歧:高可变基因筛选的杰卡德指数仅为 0.22,PCA 特征向量、SNN 图构建及聚类结果均有显著差异,差异表达分析中显著标记基因重叠度也仅为 0.62。这些差异源于算法默认参数不同,如 Seurat 采用 Bonferroni 校正和数据裁剪,而 Scanpy 默认使用 Benjamini-Hochberg 校正且不进行数据裁剪。
版本差异同样造成结果波动,Seurat v5 与 v4、Scanpy v1.9 与 v1.4 在差异表达分析中标记基因集差异显著,Cell Ranger v7 与 v6 因内含子计数默认设置不同,也导致下游分析结果偏差。此外,工具对数据降采样的耐受性存在差异,多数分析步骤在保留不足 5% 测序 reads 或 25% 细胞时,仍能维持与全量数据相近的稳定性。
这要求研究人员以后在选择分析工具和版本时要非常小心。也要求开发者在开发工具时要注意透明性,明确使用的算法,以及每一个参数的用途。
参考文献:
The impact of package selection and versioning on single-cell RNA-seq analysis
中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。我们还为进阶用户提供高质量课程培训: