首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SPIRE:行星级微生物组宝藏数据库,你值得拥有!

SPIRE:行星级微生物组宝藏数据库,你值得拥有!

作者头像
用户1075469
发布2026-04-17 14:09:07
发布2026-04-17 14:09:07
1350
举报

大家好!今天小编要介绍的这个数据库,光看名字就有点震撼——SPIRE,全称 Searchable Planetary-scale mIcrobiome REsource,直译过来就是"可检索的行星尺度微生物组资源"。这个名字不是噱头,它的数据规模确实撑得起这个定语。

背景

SPIRE 由欧洲分子生物学实验室(EMBL)Bork 课题组主导开发,第一作者是 Thomas S. B. Schmidt,通讯作者是大家熟悉的 Peer Bork。论文 2024 年发表在 Nucleic Acids Research 数据库专刊,是目前宏基因组领域整合规模最大的公共资源平台之一。它的核心定位是把全球散落在各个研究中的宏基因组原始数据,统一经过标准化流程处理后,整合进一个可在线检索的平台,解决的是"数据有了、但没法用"的问题。最近项目新发表的成果是《Unbinned contigs expand known diversity in the global microbiome》。

数据规模

SPIRE 的数据量是它最直观的亮点,下表是几个关键指标:

指标

数量

宏基因组样本

~100,000 个

整合研究数量

739 项

预测蛋白质序列

约 350 亿条

宏基因组组装基因组(MAGs)

1,160,000 个

物种水平聚类簇

>100,000 个

739 项研究、10 万个样本,涵盖肠道、土壤、海洋等多种全球生境,这个体量在目前公开的宏基因组整合资源里是顶格的。350 亿条预测蛋白序列这个数字尤其值得关注,做功能注释或比较基因组的同学,这个序列库本身就是一个非常有价值的参考集。

构建流程与工具链

SPIRE 的数据处理流程是标准化的,工具链选择也很有代表性,基本上覆盖了宏基因组分析从原始数据到 MAG 的完整路径:

分析步骤

使用工具

QC 与预处理

ngless

序列组装

MEGAHIT

Binning

MetaBAT2

MAG 精修

metaWRAP

基因预测

Prodigal

reads 比对

BWA

BAM 处理

samtools / htslib

基因组质控

CheckM2、GUNC

物种注释

mOTUs

流程管理

Nextflow

这套工具链对于想自己搭建宏基因组流程的同学来说也是一个很好的参考,基本上是目前社区里最主流的组合。值得一提的是 GUNC 和 CheckM2 的双重质控,这两个工具分别从不同角度评估 MAG 的污染和完整性,一起用可以有效过滤低质量基因组,保证入库数据的可靠性。

如何访问与使用

SPIRE 提供了网页端的在线检索界面,不需要把几百 GB 的数据下载到本地就能查询,这对存储资源有限的课题组来说非常实用。官方也提供了完整的数据下载入口(https://spire.embl.de/downloads),如果需要批量分析可以按需下载对应的子集。

想用 SPIRE 数据做分析的话,建议先在网页端熟悉数据结构,再根据自己的研究问题决定下载哪部分。MAGs 和蛋白序列库是两个最常用的数据类型,前者适合做物种多样性和系统发育分析,后者适合做功能注释和比较基因组。

基因组组装、元数据、标记基因、mOTU数据库及代表性基因组均可下载。其中,元数据文件描述基因组和簇类,并结合分类学和环境背景。标记基因是从SPIRE组装中提取的GTDB HMM蛋白序列。mOTUs提供SPIRE mOTU参考数据库用于剖析。代表性基因组为每个簇提供一个基因组供后续分析使用。

配套生态

SPIRE 并不孤立,它是 EMBL Bork 课题组一系列宏基因组资源的核心之一,周边配套相当完整:

资源

用途

GMGC(全球微生物基因目录)

基因层面的功能参考

proGenomes

细菌与古菌基因组注释

EggNOG

同源基因组与功能注释

metaTraits

微生物表型性状整合

VIRE

病毒基因组浏览器

MetaLog

宏基因组样本元数据

这几个数据库联合起来,基本上构成了一套从基因到基因组、从物种到功能、从细菌到病毒的完整参考体系。做宏基因组的同学如果只熟悉 SPIRE 还不够,建议把这几个资源都了解一下,根据具体分析需求灵活组合使用。

总结

SPIRE 解决的是宏基因组领域长期存在的一个痛点——数据分散、标准不统一、难以跨研究比较。100,000 个样本经过统一流程处理后整合进来,意味着你可以直接拿 SPIRE 的 MAGs 做参考,不用担心不同研究之间流程差异带来的系统误差。对于想做全球微生物多样性比较、或者需要一个高质量 MAG 参考库的课题组来说,这个数据库非常值得纳入自己的分析工作流。

官网:https://spire.embl.de 数据下载:https://spire.embl.de/downloads 引用文献:Schmidt TSB et al., Nucleic Acids Research, 2024, 52(D1): D777–D783. https://doi.org/10.1093/nar/gkad943

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • 数据规模
  • 构建流程与工具链
  • 如何访问与使用
  • 配套生态
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档