论文标题:What Matters in Deep Learning for Time Series Forecasting?
作者: Valentina Moretti, Andrea Cini, Ivan Marisca, Cesare Alippi
机构:IDSIA(意大利瑞士大学),米兰理工大学
论文链接:https://arxiv.org/abs/2512.22702
Cool Paper:https://papers.cool/arxiv/2512.22702
TL;DR:本文指出当前深度学习时间序列预测领域存在架构复杂、实验结果矛盾、基准测试不合理等问题。通过分析模型配置、预处理与外部变量、时间处理、空间处理四大设计维度,发现简单架构(如 MLP)经合理设计可匹配最先进模型性能,被忽视的实现细节对结果影响显著,而部分复杂组件(如空间注意力)作用有限。文章呼吁优化基准测试流程,并提出预测模型卡片模板,以提升研究透明度与可比性,推动领域聚焦核心设计问题。
关键词:时间序列预测、Benchmark,模块化设计,预测模型卡片

点击文末阅读原文跳转本文arXiv链接
深度学习模型在时间序列应用中越来越受欢迎。然而,大量新提出的架构,加上往往相互矛盾的实证结果,使得很难评估哪些组件对最终性能有显著贡献。本文旨在通过讨论能够解释(往往是出乎意料的)观测结果的设计维度和权衡,来理解当前用于时间序列预测的深度学习架构的设计空间。本文探讨了将模型设计建立在时间序列组预测原则之上的必要性,以及这些原则如何应用于当前模型。特别是,本文评估了诸如局部性和全局性等概念如何应用于近期的预测架构。实验结果分析表明,考虑这些方面对于获得准确结果而言,可能比采用特定的序列建模层更为重要,而且设计良好的简单预测架构往往能达到最先进水平。本文也讨论了现有架构中被忽视的实现细节如何(1)从根本上改变最终预测方法的类别,以及(2)极大地影响观测到的实证结果。本文研究结果呼吁重新思考当前有缺陷的基准测试实践,并强调在设计架构时需要关注预测问题的基础方面。作为朝着这个方向迈出的一步,综上,本文提出了一个辅助预测模型卡片,其各个字段用于基于关键设计选择来描述现有的和新的预测架构。
A: 该论文旨在厘清当前深度学习时间序列预测研究中的混乱局面,指出并纠正以下核心问题:
综上,论文并非提出又一种“更强”架构,而是建立一套可复现、可解释、可追溯的评估框架,迫使后续研究在比较方法时必须明确四大设计维度,从而把时间序列预测从“玄学堆砌”拉回“科学实证”。
A:与本文论点直接相关、可被归入同一对话脉络的研究,按主题分组如下。
研究主题 | 代表性研究 | 核心贡献(与本文论点强相关) |
|---|---|---|
全局 vs. 局部建模范式 | Montero-Manso & Hyndman, 2021 | 系统阐述“global–local–hybrid”三大建模范式,为本文设计维度D1提供理论基础 |
Salinas et al., 2020 (DeepAR) | 提出工业级全局模型,验证共享参数在多序列预测中的有效性 | |
Smyl, 2020 | M4竞赛冠军方案,融合指数平滑与RNN,开创混合模型先河 | |
Sen et al., 2019 | 提出“Think Globally, Act Locally”框架,探索深度网络中全局与局部参数的协同作用 | |
Cini et al., 2023 | 从图视角出发,实现全局-局部参数共享的显式控制,补充混合模型设计细节 | |
对Transformer类架构的质疑与简化 | Zeng et al., 2023 (DLinear) | 用线性模型+时间序列分解,击败多款复杂Transformer,佐证本文“简单架构可匹配SOTA”的结论 |
Toner & Darlow, 2024 | 重新检验线性基准模型性能,指出复杂架构的性能优势可能源于评估偏差 | |
Shao et al., 2024 | 构建大规模异质性基准,发现多数“SOTA”结果不可复现,呼应本文对基准测试缺陷的批判 | |
Tan et al., 2024 | 分析语言模型在时间序列预测中的边际收益,进一步质疑复杂架构的必要性 | |
通道独立 / 空间注意力再审视 | Nie et al., 2023 (PatchTST) | 提出“通道独立+修补”机制,被本文重新诠释为“全局模型”,为D1维度分析提供典型案例 |
Liu et al., 2023b (iTransformer) | 设计“倒置注意力”,聚焦空间维度建模,成为本文D4维度(空间处理)的核心消融对象 | |
Zhang & Yan, 2023 (Crossformer) | 提出跨维度注意力机制,探索时空协同建模,补充空间处理模块的多样性 | |
Ma et al., 2019; Grigsby et al., 2021 | 早期时空注意力研究,证明该机制在图时空领域的应用早于时间序列预测,质疑“创新组件”的新颖性 | |
评估流程与可复现性批判 | Brigato et al., 2025 | 指出“长期预测无绝对冠军”,超参数、数据集选择主导排行榜,强化本文对基准测试缺陷的论证 |
Herrmann et al., 2024 | 全面批判机器学习实证研究的不规范问题,为本文呼吁优化基准流程提供跨领域支撑 | |
Raichuk et al., 2021 | 以RL领域为例,开展“什么才重要”的大规模消融,为本文四维度分析提供研究方法论参考 | |
Errica et al., 2020; Dwivedi et al., 2023 | 推动图神经网络标准化评估,为时间序列预测领域的评估规范提供借鉴 | |
模型卡片与报告规范 | Mitchell et al., 2019 | 提出通用模型卡片框架,为本文“预测模型卡片”提供基础模板 |
Wang et al., 2024b | 时间序列领域综述,明确呼吁标准化模型报告,与本文卡片设计初衷一致 | |
Qiu et al., 2024 (TFB) | 提出公平基准测试流水线,与本文模型卡片互补,共同解决评估透明度问题 |
论文核心解决方案:从“比高低”到“析因果”的三步优化流程
针对前文共识中提及的“归因混乱、评估不规范”核心问题,论文未追求新的SOTA架构,而是通过“诊断-控制-标准化”三步流程,将评估焦点从“谁的性能更高”转向“性能为何高”,从根源上解决虚假进步与混乱归因问题,具体实施路径如下:
通过上述三步流程,论文得出关键验证结论,进一步佐证了核心共识:① 简单MLP结合patching策略,在四大公开数据集上即可匹配甚至超越PatchTST、iTransformer等主流“SOTA”模型;② 移除iTransformer的空间注意力模块后性能反而提升,证明其性能增益源于设计维度选择而非算子本身;③ 当四大设计维度被显式控制后,不同序列建模层(如MLP与Transformer)的性能差异大幅缩小。
基于上述分析,可以设计预测模型卡片:

预测模型卡片
下面是PatchTST的模型卡片介绍

PatchTST在Electricity的卡片

模块范式的参考架构
A:论文围绕“四大设计维度”共执行了 4 组核心对照实验 + 3 组扩展实验,所有结果均在 4 个公开数据集(Electricity、Weather、Traffic、Solar)上、3 次独立运行取平均,统一使用 70 %/10 %/20 % 训练/验证/测试划分。以下实验均控制“仅变动目标维度,其余完全一致”。

本文选取的baseline

数据集描述
诊断:定位四大核心混淆源** 论文统一复现7个代表性预测模型,通过实验发现:同一算法在“局部嵌入/全局共享”“有/无协变量”“有/无空间注意力”三种关键配置切换下,性能排名可完全颠倒(对应原文Tab.1–Tab.4)。基于此,论文将以往被包装为“新算子创新”的本质差异,还原为前文提及的D1(模型配置)、D2(预处理与协变量)、D3(时间处理)、D4(空间处理)四大设计维度的选择差异,明确了归因混乱的核心根源。四大设计维度的具体内涵如下:
核心是确定模型参数的共享模式,即如何在多个时间序列间分配模型参数,是影响预测性能的基础维度。关键选择分为三类:① 全局型(Global):所有时间序列共用一套模型参数,适合捕捉多序列共性,典型如Salinas et al., 2020提出的DeepAR;② 局部型(Local):为每个时间序列单独训练一套参数,能精准适配单序列特异性,但数据需求量大、泛化性较弱;③ 混合型(Hybrid):融合全局与局部优势,部分参数全局共享(提取共性),部分参数局部专属(适配个性),典型如Smyl, 2020的混合指数平滑+RNN方案、Sen et al., 2019的“Think Globally, Act Locally”框架。

MSE的混合型vs全局型

MSE和MAE的混合型vs全局型

MSE和MAE的混合vs全局vs局部
涵盖数据预处理策略与外部辅助信息的使用,是易被忽视但影响显著的维度。具体包括两部分:① 预处理方式:如数据是否进行标准化/归一化、是否去除趋势项/季节性成分、缺失值如何处理(插补/掩码)等;② 协变量使用:是否引入外部辅助变量,以及变量类型(如时间特征:小时、星期、节假日;环境特征:天气、温度;业务特征:销量、客流量等)。

有无协变量的MSE

有无协变量的MSE和MAE
聚焦单个时间序列内部时间依赖关系的捕捉,核心是选择合适的模块提取序列的时间规律。常见模块选择包括:简单模型(如MLP、线性模型)、经典时序模型(如RNN、LSTM)、深度学习模块(如TCN、Transformer、分块注意力机制)等。该维度需同时关注模块的时间复杂度,即性能随序列长度增长的变化趋势。

Electricity数据集上有无空间处理的效率衡量

多步预测MAE和MSE结果

无空间处理的96步预测

有空间处理的96步预测
针对多序列预测场景,核心是捕捉不同时间序列之间的关联关系(即“空间依赖”)。关键选择包括:是否引入空间关联建模模块(如空间注意力、卷积层、图神经网络)、是否依赖先验图结构(如传感器位置关系、区域关联关系)等。实验表明,部分空间模块(如iTransformer的倒置注意力)并非必要,移除后性能反而提升,印证其增益可能源于其他设计维度。

iTransformer在不同数据集上有无空间注意力的MSE

iTransformer输入长度96的在不同数据集上有无空间注意力的MSE和MAE

iTransformer输入长度336的在不同数据集上有无空间注意力的MSE和MAE

iTransformer输入长度720的在不同数据集上有无空间注意力的MSE和MAE

iTransformer预测长度为96的在不同数据集上有无空间注意力的MSE和MAE

MAE和MSE在有空间处理的模型上效率对比

时间处理层面的Electricity数据集的性能和资源利用对比

空间处理层面的Electricity数据集的性能和资源利用对比
通过上述实验,论文用“维度固定-对照-量化”方式证明:
AI论文速读 | 深度时间序列预测的未来走向:精度定律的发现与应用
此公众号的文章皆系本人原创,辛苦码字不易!如需转载,引用请注明出处。如商用联系作者。
如果觉得有帮助还请分享,在看,点赞