首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >为什么最近时序数据库这么火?

为什么最近时序数据库这么火?

原创
作者头像
数据库研究员
发布2026-06-10 15:45:59
发布2026-06-10 15:45:59
100
举报

说实话,时序数据库(TSDB)这个词,放在五年前还只在小圈子里有人聊。但最近两年,整个技术社区都在讨论它,连我身边做传统业务后端的同学都开始问"InfluxDB 和 TimescaleDB 选哪个"。这不是偶然的。

不是突然火了,是时代终于追上了它

先说一个背景:IDC 预测到 2025 年,全球联网的 IoT 设备数量将突破 416 亿台,每年产生约 79.4 ZB 的数据。这是什么概念?全球每年产生的数字数据里,超过六成都是带时间戳的时序数据——传感器读数、服务器监控指标、用户行为日志、股票行情、车载 GPS 轨迹。

这些数据有个共同特点:时间就是核心维度。 温度传感器每秒上报一次,环境温度在 25℃ 和 26℃ 之间来回波动,这个波动本身没意义,但你知道它是"刚才"发生还是"昨天"发生的,这就非常有意义。

问题是,传统关系型数据库在处理这种数据时是真的力不从心。不是它们不好,而是场景不对——MySQL、PostgreSQL 这些通用数据库的设计初衷是处理事务和关联查询,拿来存每秒百万级的传感器数据,就像用卡车拉快递一样,能跑,但效率和成本都不对。

所以,时序数据库的"火",本质上不是技术炒作,而是需求终于被放大到了无法忽视的程度

它到底解决了什么问题?

要说清楚 TSDB 解决了什么,先说通用数据库的三个痛点:

写入吞吐不够。 一台工业设备每秒上报 10 个指标,全国十万台设备同时在线,就是每秒一百万条记录。通用数据库的单表写入每秒撑到几万条就开始出问题了,而时序数据库专门为高吞吐写入设计,QuestDB 官方测试数据是单节点每秒 140 万行,InfluxDB 单机也能跑到几十万每秒。这个差距是数量级的。

存储成本失控。 时序数据有个特点——价值随时间衰减。大部分时候你只关心最近一小时或一天的数据,历史数据虽然要保留,但访问频率极低。用通用数据库存历史数据,每个字节都是真金白银,而 TSDB 的压缩算法专门针对时间戳和数值序列优化,TimescaleDB 的实测压缩率可以达到 90% 以上,相当于原来十分之一的存储空间。VictoriaMetrics 官方甚至宣称在相同磁盘空间下能存下比其他 TSDB 多 70 倍的数据点。这个数字有点夸张,但压缩率高是实打实的。

查询效率低。 时序数据的典型查询是"最近 24 小时某设备所有温度传感器的最大值",或者"过去 7 天每小时的平均 CPU 使用率"。这种按时间窗口做聚合的查询,通用数据库要扫全表,而时序数据库按时间分区存储,只扫描涉及的时间段,响应时间差几倍甚至几十倍。

这些年谁在推着它往前走?

时序数据库的崛起,背后有三个推动力。

第一个,物联网。 这是最直接的。工厂里的 PLC 控制器、车载 T-Box、智能电表、摄像头,每时每刻都在产生带时间戳的数据。工业 4.0 和智能制造推进这几年,工厂里的传感器数量呈指数级上升。传统 SCADA 系统里,数据存到关系型数据库里跑报表,结果数据库先撑不住了。上 TSDB 是刚需,不是可选项。

第二个,云原生和 DevOps 监控。 Prometheus + Grafana 这套组合拳几乎统治了整个互联网行业的监控领域。Prometheus 本身就是一个时序数据库,它的数据模型和查询语言就是针对监控场景设计的。当企业上了 Kubernetes,容器数量从几十个涨到几千个,每个容器的 CPU、内存、网络指标都要采集和存储,这时候通用监控方案根本接不住,而 Prometheus 配 VictoriaMetrics 或者 Thanos 做长周期存储,成了事实标准。

第三个,AI 和机器学习。 时间序列数据的预测和异常检测本身就是机器学习的核心应用场景——设备故障预测、股票价格预测、能耗异常检测。用户行为也可以被建模为时序数据来做推荐。时序数据库存储的是原始训练素材,AI 模型负责挖掘价值,两者天然配合。TimescaleDB 这两年在持续聚合功能上发力,就是在往"存储即训练"的路线上靠。

市场在爆发,但格局还没定

DB-Engines 的统计很说明问题——时序数据库已经连续多年成为增长最快的数据库类别,没有之一。全球 TSDB 软件市场规模 2024 年约 3.59 亿美元,预计到 2031 年会翻一倍多,年复合增长率约 10.06%,增速远超数据库行业平均水平。

但更有意思的是生态。约 80% 的时序数据库产品来自开源社区——InfluxDB、TimescaleDB、QuestDB、VictoriaMetrics、Apache IoTDB、TDengine,全是开源的。云厂商也来凑热闹,AWS 有 Timestream,Azure 有 Time Series Insights,但有意思的是,它们大都是通过兼容开源协议和 API 来吸引用户,而不是另起炉灶。这说明开源社区已经在这个领域建立了事实标准。

当然,火归火,问题也不少

不能光吹不黑。时序数据库目前有几个公认的痛点:

生态还不成熟。 虽然主流 TSDB 都支持 SQL 或者类 SQL 查询,但跟 PostgreSQL、MySQL 相比,生态工具链的丰富程度差了一大截。BI 工具对接、ETL 管道、CDC 同步这些环节,通用数据库的方案一抓一大把,TSDB 的方案就少很多,企业用起来会发现很多环节要自己造轮子。

高基数的诅咒。 当时序数据带上大量标签(Tag)时,序列数量会爆炸式增长,这就是"高基数问题"。InfluxDB 早期版本在高基数场景下索引内存占用暴涨,Prometheus 在超大规模下也出现过性能退化。虽然新版本都在优化这个问题(InfluxDB 3.0 宣称实现"无限基数"),但生产环境的稳定性还需要更多验证。

湖仓一体的新竞争。 数据湖和数据仓库在融合,时序数据库也在被通用数据库"收编"。MongoDB 推出了 Time Series 集合类型,未来很多场景里通用数据库+时序插件的组合可能够用了,不一定非要单独维护一套 TSDB。

所以,它火是真实的,但也有泡沫

我的判断是:时序数据库的核心需求是真实的,但当前的火热程度确实包含了部分泡沫。

真实的那部分在于——物联网设备量级是真实的,监控数据规模是真实的,工业数字化转型是真实的。这些场景对高吞吐写入、时序查询、存储压缩的需求是刚性的,不会消失。

泡沫的那部分在于——不是所有"带时间戳的数据"都需要专门的 TSDB。很多中小型应用每天几万条数据的量级,用 PostgreSQL 加个时间索引就足够了,上 TSDB 是杀鸡用牛刀。另外,现在市面上二三十种 TSDB 产品,大部分最终会被淘汰,最后活下来的可能就三五家,企业选型时还是要谨慎,不要追着新版本换。

下一个五年,时序数据库肯定还会继续增长,但会从"全面爆发"走向"理性落地"。能真正解决高并发写入、长周期存储、查询性能这几个核心问题的产品,会留下来。其余的,会慢慢淡出视野。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 不是突然火了,是时代终于追上了它
  • 它到底解决了什么问题?
  • 这些年谁在推着它往前走?
  • 市场在爆发,但格局还没定
  • 当然,火归火,问题也不少
  • 所以,它火是真实的,但也有泡沫
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档