首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >GTDB Release R232 的数据扩展与分类体系更新

GTDB Release R232 的数据扩展与分类体系更新

作者头像
用户1075469
发布2026-04-23 18:47:44
发布2026-04-23 18:47:44
990
举报

Hello,小伙伴们大家好!GTDB 是一个基于基因组构建的微生物分类数据库,通过系统发育分析对细菌和古菌进行统一分类,目前已广泛应用于宏基因组数据的分类注释与系统发育研究

随着基因组数据的持续积累方法体系的不断更新,GTDB 会定期发布新版本,对收录数据进行扩充,并对分类体系作出相应调整。最新发布的 R232(2026年4月15日)数据规模分类结构方面均有进一步更新。本文将对 R232 版本的数据扩展情况分类体系更新进行简要梳理,帮助大家快速了解本次数据库更新的主要内容。

分类单元概览

GTDB Release R232已收录 90 余万条基因组数据,对应 近 20 万个物种聚类,数据库体量进一步扩大。其中,细菌仍然是数据库的主体,基因组数量接近 88 万,而古菌收录数量相对较少。与此同时,R232 在各分类层级上也保持了较高的覆盖度,共包括 186 个门、641 个纲、2,343 个目、6,725 个科、37,503 个属199,923 个种,如下表所示。

物种变化概览

与上一版本 R226 相比,R232 中细菌基因组数量由 715,230 增加至 878,998,古菌基因组由 17,245 增加至 22,343,分别增长 22.90%29.56%。在物种层面,细菌物种聚类数量由 136,646 增加至 189,801,古菌由 6,968 增加至 10,122,增长幅度分别达到 38.90%45.26%,如下表所示。

基因组来源分布

从基因组来源来看,GTDB 收录的数据主要包括分离培养基因组(isolate genomes)宏基因组组装基因组(MAGs)以及单细胞扩增基因组(SAGs)。整体来看,在较高分类层级(如 phylum、class)中,同时包含分离培养基因组和环境来源基因组(MAGs/SAGs)的分类单元占比较高;而在较低分类层级(如 genus、species)中,由环境来源基因组主导(MAGs/SAGs)的比例明显增加。这一趋势表明,随着分类分辨率的提高,越来越多的分类单元主要依赖于宏基因组和单细胞测序数据,如下图所示。

从总体基因组组成来看,当前 GTDB 数据中,环境来源基因组(MAGs/SAGs)已占据重要比例,与分离培养基因组共同构成数据库主体,反映出当前微生物研究从传统培养向环境基因组驱动的转变趋势。

物种代表基因组概览

GTDB 中,每个物种聚类通常由一个 代表基因组(representative genome) 进行表征。通常会优先选择来源于 模式菌株(type strain) 的基因组作为代表,但在实际数据中,仍有大量物种缺乏已培养的模式菌株。从 R232 的统计结果来看,仅有约 10.6% 的物种代表基因组来源于 模式菌株,而绝大多数物种(约 88.7%)目前尚无正式命名,因此在 GTDB 中仍以 占位名称(placeholder) 表示。另有约 0.7% 的物种虽已有拉丁学名,但尚无模式菌株。这表明,目前 GTDB 中绝大多数物种仍未完成正式的命名与分类确认,如下图所示。

从代表基因组的来源类型来看,MAG(宏基因组组装基因组) 占据主导地位,明显高于 分离培养基因组(isolate)单细胞基因组(SAG)。这一结果进一步反映出,当前微生物多样性的解析在很大程度上依赖于 环境测序数据,而非传统的 纯培养体系

代表基因组质量分布

GTDB 对物种代表基因组的质量主要基于 完整度(completeness)污染度(contamination) 进行评估,并参考 MIMAG 标准 进行分级。从 R232 的统计结果来看,大部分代表基因组属于 中等质量(medium quality),共 157,030 个(78.5%)高质量基因组(high quality)42,801 个(21.4%);而低质量基因组(low quality)和异常情况(exceptions)所占比例极低(均接近 0%)。

从分布特征来看,高质量基因组主要集中在 高完整度(>90%)且低污染度(<5%) 的区域,而中等质量基因组则分布更广,覆盖从中等到高完整度、不同污染水平的范围。整体来看,GTDB 在保证数据规模扩展的同时,仍维持了较高比例的中高质量基因组,如下图所示。

优势类群分布

从不同分类层级中物种聚类数量最多的类群来看,Pseudomonadota 在门(phylum)水平上占据主导地位,共包含 46,828 个物种聚类;在纲(class)水平上,Gammaproteobacteria 数量最多(25,165);在目(order)和科(family)层级,分别以 Burkholderiales(9,155)和 Lachnospiraceae(4,549)为主,而在属(genus)水平,Streptomyces(2,311)具有最高的物种多样性,如下表所示

从基因组数量分布来看,整体趋势与物种层面基本一致。Pseudomonadota 同样在门水平上具有最多的已测序基因组(324,613),其下的 Gammaproteobacteria(273,004)和 Enterobacterales(162,324)在较低分类层级中也占据主导地位。在属和物种层面,Escherichia(37,464)及 Escherichia coli(36,408)分别是基因组数量最多的代表类群,如下表所示

GTDB 与 NCBI 分类体系比较

总体来看,GTDBNCBI 在较高分类层级上的一致性较高,但随着分类层级逐渐细化,两者差异明显增加,尤其是在 属(genus)种(species) 水平上最为突出。其中,被动变化(passive change) 占据较大比例,说明 GTDB 在低层级分类中补充或调整了部分命名信息;同时也存在一定比例的 主动变化(active change),反映出 GTDB 基于系统发育关系对部分分类单元进行了重新划分。此外,门(phylum)水平上的部分差异还与 IJSEM 有效命名规则下的名称更新有关。

小结

总体来看,GTDB Release R232数据规模分类单元覆盖度物种代表基因组构成以及分类体系更新等方面均有进一步扩展和完善。随着越来越多环境来源基因组被纳入数据库,GTDB 正持续推动微生物分类从传统培养体系向基因组驱动的分类框架转变。

对于依赖 GTDB 进行宏基因组分类注释和系统发育分析的研究而言,建议在开展分析前明确所使用的数据库版本,并在结果解读中关注不同版本间可能存在的分类差异。若研究工作涉及跨样本比较、流程复现或不同研究之间的结果对照,应尽量保持分类数据库版本一致;对于已有历史数据,也可根据研究需要评估是否有必要基于新版本进行重新注释。

参考文献

[1] Parks DH, Chaumeil PA, Mussig AJ, Rinke C, Chuvochina M, Hugenholtz P. GTDB release 10: a complete and systematic taxonomy for 715 230 bacterial and 17 245 archaeal genomes. Nucleic Acids Research, 2026, 54(D1): D743–D754. doi: 10.1093/nar/gkaf1040. PMID: 41123020.

[2] Parks DH, Chuvochina M, Rinke C, et al. GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy. Nucleic Acids Research, 2022, 50(D1): D785–D794. PMID: 34718727.


下载网址:https://data.gtdb.aau.ecogenomic.org/releases/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 物种变化概览
  • 优势类群分布
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档