论文题目: It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks
作者: Zhongzheng Qiao(乔忠正), Sheng Pan(潘胜), Anni Wang (王安妮), Viktoriya Zhukova , Yong Liu(刘雍)Xudong Jiang(蒋旭东) Qingsong Wen(文青松), Mingsheng Long (龙明盛)Ming Jin(金明)Chenghao Liu(刘成昊)
论文链接: https://arxiv.org/abs/2602.12147
代码:https://github.com/zqiao11/TIME
榜单:https://huggingface.co/spaces/Real-TSF/TIME-leaderboard

随着时间序列基础模型(TSFMs)的爆发,时序预测(TSF)的评估范式正在经历一场深刻的变革:从传统的“以数据集为中心”的单一数据集内训练和测试,转向“以任务为中心”的多任务零样本(zero-shot)泛化评估。然而,近年来领域内开始对现有的基准测试(Benchmarks)进行深刻反思,不仅发现了其中广泛存在却长期被忽视的底层问题,也越发意识到构建契合基础模型时代的全新 Benchmark 的迫切性与重要性。尽管近期领域内涌现了不少新的 Benchmark 尝试应对这些挑战,但如何从底层的数据来源、质量把控、任务设定以及评估视角进行系统性的重构,依然是当前亟待解决的难题。
为了打破这些僵局,作者们正式推出了 TIME——一个为 TSFMs 打造的下一代“以任务为中心”的时序预测基准。在基准构建层面,TIME 引入了 50 个全新的、鲜被现有Benchmark使用的“纯净”数据集,从源头上杜绝了数据泄露;同时,引入了“LLM辅助+人类决策”的严格数据清洗流程,并结合真实场景需求量身定制了 98 个极具现实意义的预测任务。在评估视角层面,TIME创新性地提出了“基于时序模式(Pattern-level)分析”方法。TIME不再局限于死板的领域或频率划分,而是通过提取时序变量的内在结构特征,将表现出相同模式的变量跨领域聚合。这不仅为模型的泛化能力提供了更具诊断性的洞察,也让 TIME 成为了一个真正能指导时序基础模型落地应用的强力工具。
如图1所示,总结了当前时间序列预测Benchmark面临的一些共性瓶颈或挑战。

纵观TSF Benchmark的发展时间线(图2),现有Benchmark在数据构成上往往需要复用过往的经典数据集(legacy datasets)。这种数据集的持续复用,一方面使得模型在经典 Benchmark 上的性能提升逐渐趋缓(如在 Gift-Eval 上的表现趋于平稳);另一方面,这也无形中增加了测试集泄露(Test Leakage)的潜在风险,给零样本(Zero-shot)评估的客观性带来了挑战。

其次,数据的质量把控也是一个重要环节。许多开源数据集在构建时缺乏严格的质量把控,例如包含了一些显著的异常值和存在极高的缺失率。同时,当前的预测任务设置往往脱离实际业务场景,目前常见的预测任务设置往往更侧重于学术范式,习惯采用统一的历史观测窗口和预测长度。这种标准化的设定有时难以完全贴合复杂多变的实际业务场景,导致排行榜上的量化分数,不一定能直接转化为指导实际决策的有效行动。
最后,目前的评估视角和方法仍有进一步拓展的空间,且定性分析(如可视化检验)的维度相对欠缺。现有的 Benchmark 通常习惯按“领域”(domain)或“频率”(frequency)来划分数据集并汇总指标,忽略了跨领域的时间序列之间可能共享的底层时序模式或特征。此外,与 NLP 或 CV 领域不同——在那些领域,像“准确率”这样的指标通常具备直观的操作意义,甚至可以直接对标人类的表现——时间序列的常用误差指标(如 MAE、MASE)在孤立状态下往往显得较为抽象。仅仅是基准测试上标量数值的提升,很难直接说明模型的预测在实际部署中是否真正可靠或具备鲁棒性。如果仅依赖量化的榜单指标来指导业务选型,可能会在实际应用落地中遇到预期之外的偏差。

为了解决上述问题,作者重新设计了Benchmark的整个生命周期,提出了 TIME 的核心工作流(如图3所示)。整个过程主要包含四个紧密相连的环节:
在评估环节,作者对12个具有代表性的TSFMs进行了全面测评,并引入Seasonal Naïve 作为基线对比。整体的评估结果与当前模型的发展趋势所吻合,其中 Chronos-2 和 TimesFM-2.5 展现出了当前最优的综合性能。为了打破传统量化指标过于抽象的局限,作者还专门开发了一个交互式的Leaderboard,不仅支持多尺度的宏观分析,还能直接可视化每个模型在各个测试窗口的具体预测曲线,让定性分析变得一目了然。
榜单:https://huggingface.co/spaces/Real-TSF/TIME-leaderboard


此外,得益于特有的“模式驱动”策略,作者们还从时序特征的维度对模型能力进行了深度剖析。结果清晰地表明,在面对具备不同底层特征(如强趋势或高波动)的时间序列时,各大模型的排名和表现会发生的变化。这种细分维度的洞察,不仅直观地揭示了不同时序模式对具体模型性能的影响,也进一步为复杂业务场景下的精准模型选型提供了有力的依据。

为了方便用户快速测试与复现,GitHub仓库开源了全流程代码,并提供了轻量易用、无复杂依赖的 Dataset 类以及完整的实验运行脚本。同时,非常欢迎研究者们在 TIME 上测评自己的模型,并将结果提交至官方榜单,详细的提交流程与指南敬请参阅作者们的 GitHub Repo。
代码:https://github.com/zqiao11/TIME
VLDB2024 |TFB: 全面且公平的时间序列预测方法评测基准
如果觉得有帮助还请分享,在看,点赞