
大家好!今天小编要介绍的这个数据库,光看名字就有点震撼——SPIRE,全称 Searchable Planetary-scale mIcrobiome REsource,直译过来就是"可检索的行星尺度微生物组资源"。这个名字不是噱头,它的数据规模确实撑得起这个定语。
SPIRE 由欧洲分子生物学实验室(EMBL)Bork 课题组主导开发,第一作者是 Thomas S. B. Schmidt,通讯作者是大家熟悉的 Peer Bork。论文 2024 年发表在 Nucleic Acids Research 数据库专刊,是目前宏基因组领域整合规模最大的公共资源平台之一。它的核心定位是把全球散落在各个研究中的宏基因组原始数据,统一经过标准化流程处理后,整合进一个可在线检索的平台,解决的是"数据有了、但没法用"的问题。最近项目新发表的成果是《Unbinned contigs expand known diversity in the global microbiome》。
SPIRE 的数据量是它最直观的亮点,下表是几个关键指标:
指标 | 数量 |
|---|---|
宏基因组样本 | ~100,000 个 |
整合研究数量 | 739 项 |
预测蛋白质序列 | 约 350 亿条 |
宏基因组组装基因组(MAGs) | 1,160,000 个 |
物种水平聚类簇 | >100,000 个 |
739 项研究、10 万个样本,涵盖肠道、土壤、海洋等多种全球生境,这个体量在目前公开的宏基因组整合资源里是顶格的。350 亿条预测蛋白序列这个数字尤其值得关注,做功能注释或比较基因组的同学,这个序列库本身就是一个非常有价值的参考集。

SPIRE 的数据处理流程是标准化的,工具链选择也很有代表性,基本上覆盖了宏基因组分析从原始数据到 MAG 的完整路径:
分析步骤 | 使用工具 |
|---|---|
QC 与预处理 | ngless |
序列组装 | MEGAHIT |
Binning | MetaBAT2 |
MAG 精修 | metaWRAP |
基因预测 | Prodigal |
reads 比对 | BWA |
BAM 处理 | samtools / htslib |
基因组质控 | CheckM2、GUNC |
物种注释 | mOTUs |
流程管理 | Nextflow |
这套工具链对于想自己搭建宏基因组流程的同学来说也是一个很好的参考,基本上是目前社区里最主流的组合。值得一提的是 GUNC 和 CheckM2 的双重质控,这两个工具分别从不同角度评估 MAG 的污染和完整性,一起用可以有效过滤低质量基因组,保证入库数据的可靠性。
SPIRE 提供了网页端的在线检索界面,不需要把几百 GB 的数据下载到本地就能查询,这对存储资源有限的课题组来说非常实用。官方也提供了完整的数据下载入口(https://spire.embl.de/downloads),如果需要批量分析可以按需下载对应的子集。
想用 SPIRE 数据做分析的话,建议先在网页端熟悉数据结构,再根据自己的研究问题决定下载哪部分。MAGs 和蛋白序列库是两个最常用的数据类型,前者适合做物种多样性和系统发育分析,后者适合做功能注释和比较基因组。

基因组组装、元数据、标记基因、mOTU数据库及代表性基因组均可下载。其中,元数据文件描述基因组和簇类,并结合分类学和环境背景。标记基因是从SPIRE组装中提取的GTDB HMM蛋白序列。mOTUs提供SPIRE mOTU参考数据库用于剖析。代表性基因组为每个簇提供一个基因组供后续分析使用。
SPIRE 并不孤立,它是 EMBL Bork 课题组一系列宏基因组资源的核心之一,周边配套相当完整:
资源 | 用途 |
|---|---|
GMGC(全球微生物基因目录) | 基因层面的功能参考 |
proGenomes | 细菌与古菌基因组注释 |
EggNOG | 同源基因组与功能注释 |
metaTraits | 微生物表型性状整合 |
VIRE | 病毒基因组浏览器 |
MetaLog | 宏基因组样本元数据 |
这几个数据库联合起来,基本上构成了一套从基因到基因组、从物种到功能、从细菌到病毒的完整参考体系。做宏基因组的同学如果只熟悉 SPIRE 还不够,建议把这几个资源都了解一下,根据具体分析需求灵活组合使用。
SPIRE 解决的是宏基因组领域长期存在的一个痛点——数据分散、标准不统一、难以跨研究比较。100,000 个样本经过统一流程处理后整合进来,意味着你可以直接拿 SPIRE 的 MAGs 做参考,不用担心不同研究之间流程差异带来的系统误差。对于想做全球微生物多样性比较、或者需要一个高质量 MAG 参考库的课题组来说,这个数据库非常值得纳入自己的分析工作流。
官网:https://spire.embl.de 数据下载:https://spire.embl.de/downloads 引用文献:Schmidt TSB et al., Nucleic Acids Research, 2024, 52(D1): D777–D783. https://doi.org/10.1093/nar/gkad943