论文标题:A Comprehensive Survey of Deep Learning for Multivariate Time Series Forecasting: A Channel Strategy Perspective
会议:IJCAI 2026
作者: Xiangfei Qiu*, Hanyin Cheng*, Xingjian Wu, Junkai Lu,Jilin Hu, Chenjuan Guo, Christian S. Jensen, Bin Yang
单位:华东师范大学,丹麦奥尔堡大学
论文:https://arxiv.org/abs/2502.10721
代码:https://github.com/decisionintelligence/CS4TS
引言
多元时间序列预测是经济、能源、交通等多个领域中一项基础且极具挑战性的任务。准确预测多个相互关联的通道(即变量)在未来时刻的取值,对于制定科学决策、优化资源配置以及提升运营效率具有关键意义。
近年来,深度学习技术的飞速发展极大地提升了多元时间序列预测的性能。研究人员主要从时间维度和通道(即变量)维度对多元时间序列进行建模。尽管已有综述,但它们大多聚焦于时间维度的建模方法,缺乏对多元场景下通道策略作用的全面、系统探讨。本研究旨在填补这一空白,系统总结多元时间序列预测中通道策略的主要发展脉络。我们提出一个包含三个层级的新型分类体系:
- 从策略视角出发,系统介绍三种通道策略的定义及其代表性方法,为研究者理解这些策略奠定基础框架;
- 从机制视角进一步探究各类方法实现通道策略的具体机制,并对其进行分类总结,帮助研究者深入理解不同通道策略的底层实现原理;
- 从特征视角聚焦于通道策略在建模通道间相关性时所考虑的不同特征。
在此基础上,我们通过严谨的实验详细对比了三种通道策略的优势与局限性,为研究者和工程师提供有价值的参考。最后,我们讨论了未来的研究方向,为该领域的进一步发展提供指导。
据我们所知,这是首项从通道策略视角全面、系统地梳理多元时间序列预测深度学习方法核心进展的工作。
多元时间序列预测中的通道策略分类体系
本研究提出的分类体系为理解多元时间序列预测中的通道策略提供了结构化的框架。该体系分为三个层级,依次为策略视角、机制视角和特征视角,从宏观设计到微观实现,全面覆盖了通道建模的各个方面。
1 策略视角
通道策略是指用于处理、整合或利用多个输入通道信息的方法,是MTSF模型设计的顶层决策。现有策略可大致分为以下三类:
1.1 通道独立(CI)
通道独立策略将每个通道视为完全独立的个体进行处理,不考虑通道间任何潜在的交互或相关性。每个通道作为单独的输入进行处理,不利用任何共享信息或依赖关系。
代表性方法:PatchTST、DLinear、CycleNet,以及Timer、Time-LLM、One-Fits-All等主流时间序列基础模型。
核心优势:
- 模型复杂度极低,推理速度极快,参数量最少;
- 天然免疫通道间的噪声和虚假相关性,过拟合风险低;
- 扩展性极强,新增通道无需修改模型架构,能够无缝适配不断变化的数据集。
这些优势使得通道独立策略在近年来的研究中日益流行,并推动了预测性能的提升。
1.2 通道依赖(CD)
通道依赖策略假设多元时间序列中的所有通道本质上是相互关联、彼此依赖的,在预测过程中将它们视为一个统一的整体。根据学习通道间交互的阶段不同,现有的通道依赖方法可分为两类:
- 嵌入融合:这类模型在获取时间序列嵌入表示时融合不同通道的数据。例如,Informer、Autoformer和TimesNet使用一维或二维卷积提取时间表示。在卷积操作中,每个卷积核首先在每个输入通道内进行滑动卷积得到对应的特征图,然后对所有通道的特征图进行加权融合,从而捕捉通道间的依赖关系。
- 显式相关:这类模型通常设计专门的模块来显式建模通道相关性,基于已获取的时间序列嵌入表示实现更结构化的通道建模。代表性算法包括iTransformer和TSMixer。iTransformer在通道间采用自注意力模块,将独立的时间序列视为token,利用自注意力机制捕捉多元相关性;而TSMixer则在通道间使用多层感知机模块,通过全连接层提取的多级特征来表示通道间复杂的相关性。
1.3 通道部分依赖(CP)
通道部分依赖策略在通道独立和通道依赖之间取得平衡,允许每个通道保留一定的独立性,同时与其他相关通道进行交互。该方法强调通道选择性交互、呈现部分相关性的混合状态,更符合真实世界中变量间的关系模式。
根据每个通道的相关通道数量是固定还是动态,现有的通道部分依赖方法可分为两类:
- 固定部分通道:这类模型为每个通道固定相关通道的数量,即关联通道的集合不随时间变化。例如,在MTGNN中,通道关系被建模为K正则图,每个通道与K个其他通道采用通道依赖策略建模依赖关系,与其余通道则采用通道独立策略进行交互。类似地,MCformer中每个通道仅与K个其他通道交互,与其余通道保持通道独立策略,以保证计算效率并防止过拟合。
- 动态部分通道:这类模型允许每个通道的相关通道数量随时间动态变化,能够更灵活地适应不同场景。例如,DUET在频域中利用度量学习计算通道相似度,然后对结果进行稀疏化处理,生成掩码矩阵并融入融合模块的注意力机制中,确保每个通道仅与相关通道交互,减少噪声通道的干扰。另一个例子是CCM,它根据通道的内在相似性对通道进行动态聚类,并利用聚类感知的前馈机制有效捕捉这些聚类内部的潜在时间序列模式,实现对每个聚类的定制化管理和处理。
2 机制视角
本节主要介绍为建模通道间关系而设计的各类底层技术机制,不同的深度学习架构为上述三种通道策略提供了具体的实现路径。
2.1 基于Transformer的机制
近年来,Transformer凭借其强大的全局建模能力被广泛应用于多元时间序列预测任务,能够有效捕捉复杂的时间依赖和通道交互。现有的基于注意力机制的通道策略可分为以下几类:
- 朴素注意力:这类方法均采用通道依赖策略,将每个通道的时间序列片段或整个序列视为独立的token,直接应用注意力机制建模通道相关性。例如,CARD和iTransformer分别将每个通道的片段和序列表示为独立的token,并通过注意力机制显式捕捉通道相关性。
- 路由注意力:当通道数量较大时,通道注意力的计算复杂度达到,导致计算成本过高。为解决这一问题,Crossformer为朴素注意力引入了路由机制,使用少量固定数量的"路由节点" ()收集所有通道的信息并重新分配,将复杂度降低至,有效平衡了通道相关性建模与计算效率。
- 频域注意力:部分通道依赖方法认为,频域信息比时域信息更能有效捕捉通道间的依赖关系。例如,FECAM将时间序列数据转换到频域,然后在该域中采用朴素注意力建模通道间关系。
- 掩码注意力:在朴素注意力中,每个通道会与所有通道计算注意力分数,容易受到无关通道的负面影响。为缓解这一问题,掩码注意力通过构建通道部分依赖策略来避免无关噪声的干扰。例如,DUET为朴素注意力生成掩码矩阵,使每个通道仅关注对下游预测任务有益的通道,同时减轻噪声或无关通道的影响。
3.2.2 基于MLP的机制
根据通用近似定理,多层感知机(MLP)作为骨干网络具有强大的特征学习能力。现有的基于MLP的模型以通道依赖的方式使用MLP混合机制,通过全连接层提取的多级特征来表示通道间复杂的相关性。
从通道策略的角度来看,TSMixer和Tiny-TTM等MLP混合类模型均采用这种方法高效捕捉所有通道间的相关性,在低计算成本下实现了优异的性能,且均属于通道依赖策略。
3.2.3 基于CNN的机制
卷积神经网络(CNN)是利用卷积层从数据中提取局部特征的深度学习模型。现有的基于CNN的方法采用卷积融合进行通道建模。例如,Informer、Autoformer和FEDformer在初始特征提取层使用沿时间维度滑动的一维卷积。这些模型将不同通道作为卷积的独立输入,在卷积过程中对各通道的特征进行加权融合,从而实现通道间的交互。
尽管TimesNet采用二维卷积,但它将时间维度折叠为二维格式,通道仍作为独立输入通过卷积进行加权融合。这类模型均属于通道依赖策略。
3.2.4 基于GNN的机制
通过将时间序列沿时间划分为不同窗口,将每个窗口内的通道视为节点,通道间的相关性视为边,多元时间序列可被转换为图结构数据。基于图神经网络(GNN)的方法可分为稠密图和稀疏图两类:
- 基于稠密图的方法(如GTS、FourierGNN)通常遵循通道依赖策略;
- 基于稀疏图的方法(如MTGNN、MTSF-DG)属于通道部分依赖策略。 所构建图的稀疏性决定了方法遵循通道依赖还是通道部分依赖策略。此外,基于GNN的模型在实现通道依赖或通道部分依赖策略时,通常依赖于其所构建的图类型,主要包括简单图、时空图、超图和时序图四类。
- 简单图:简单图是最基础的图模型,每对节点之间最多存在一条边,需要定义良好的图结构才能实现有效的消息传递。研究者们利用通道相似性度量(MTGNN、MSGNet 、CrossGNN)和数据相似性度量(GTS、WaveForM )学习多元通道间的相关图结构,并将时域(MTGNN、MSGNet、CrossGNN、GTS)或频域(WaveForM)信息作为节点学习特征。在简单图中应用图卷积消息传递,促进通道间依赖信息的传输。
- 时空图:与简单图不同,时空图将不同时间步的多个通道整合到同一个图中,进一步考虑了不同时间步之间通道的关系。这种方法使图神经网络能够同时建模时间依赖和通道依赖,有效解决了时间模块与图神经网络之间可能存在的兼容性问题。基于时空图的方法的主要挑战是解决图构建和消息传递阶段的效率问题。例如,FourierGNN 采用全连接图构建,并利用傅里叶域卷积算子实现的时间复杂度;FCSTGNN采用相同的图构建方法,并通过移动池化卷积实现了相同的时间复杂度。
- 超图:超图是图的扩展,允许超边连接多个顶点,能够建模高阶组交互。基于超图的模型假设通道间的交互不是成对的,而是涉及多个通道的组交互。因此,基于超图的模型本质上适合构建通道部分依赖策略。ReMo分别构建了多视图和多尺度超图,并在这些超图上设计消息传递机制,实现组内消息传播。值得注意的是,他们使用不同的多层感知机或聚类约束来促进组间异质性的表达。
- 时序图:在现实世界中,时间序列数据的相关性通常会随时间变化,形成动态关系图。MTSF-DG 和 TPGNN 分别使用动态图和多项式图来建模这些相关性的变化模式。通道部分依赖模型 MTSF-DG 结合了历史和未来关系图,利用记忆网络和逻辑符号学习捕捉历史相关性对未来相关性的影响;通道依赖模型 TPGNN 将相关矩阵表示为具有时变系数的矩阵多项式,学习相关性的演化模式。
3.2.5 其他机制
除上述机制外,部分模型还提出了其他创新方法:
- 通道依赖模型SOFTS引入了STAR模块,采用集中式结构先聚合所有通道的信息,再分发到每个通道,降低了交互复杂度;
- 通道部分依赖模型LIFT提出了一种通用插件,能够估计领先指标及其领先步长,使滞后通道能够利用超前信息;
- C-LoRA引入了通道感知低秩适配插件,可适配所有MTSF模型,同时实现通道个性化处理和跨通道依赖建模。
3.3 特征视角
为了更好地探索多元时间序列预测中的通道相关性,通常需要深入研究时间序列通道间相关性的不同特征。当前方法主要考虑以下六个关键特征:
- 不对称性:通道间的相互影响程度并不完全相同。基于Transformer和MLP的方法天然具有不对称性,而基于GNN的方法通过非对称距离度量构建有向加权图来实现。
- 滞后性:某个通道的当前状态会受到其他通道过去状态的影响。VCformer在计算注意力矩阵时纳入了多步延迟效应,LIFT则结合先验知识估计滞后步长。
- 极性:通道间交互存在正相关和负相关的区别。CrossGNN采用符号图方法,将相关性分为正、负、中性三类,在消息传递中整合正负信息交换。
- 分组性:通道间相关性呈现"组内强相关、组间弱相关"的聚类特征。CCM和DUET使用聚类技术对通道进行分组交互,ReMo通过超边建立组内消息传递。
- 动态性:通道间的相关性会随时间发生变化。基于片段token的Transformer方法和动态图GNN方法能够捕捉这种动态性。
- 多尺度性:通道间的相关性在不同时间尺度(如小时、分钟、秒)上表现出不同行为。MSGNet在不同尺度上建立不同的图结构,实现多尺度相关信息的融合。
4 分类体系内的对比分析
本节从性能和效率两个核心维度,对比了通道独立、通道依赖和通道部分依赖三种策略的优势与局限性。我们为每类策略选取了三个代表性模型,在统一的实验设置下进行了评估。
4.1 不同相关性强度下的性能对比
实验数据来自时间序列预测基准数据集TFB,从中选取了9个数据集代表不同的相关性强度。实验设置为:回溯窗口512,预测时域96,评价指标为均方误差(MSE)。
实验结果表明:
- 弱相关场景:通道独立(CI)策略表现最优。由于天然忽略了通道间的噪声和虚假相关性,CI在这类数据集上的MSE显著低于CD和CP。而CD策略由于容易过拟合虚假相关性,性能出现明显下降。
- 强相关场景:CI遭遇容量瓶颈,其性能落后于CD和CP策略。在这些场景中,CD和CP均表现出色,其中通道部分依赖(CP)策略展现出最强的泛化能力。通过灵活建模通道间依赖关系,CP既能捕捉复杂的跨通道交互,又能过滤无关噪声,取得了优于纯CD策略的性能。
4.2 效率与计算复杂度对比
我们选取ETTm2和PEMS-BAY数据集分别作为通道间相关性最小和最大场景的代表,对比了不同策略的参数量和推理时间。实验设置为:批量大小1,回溯窗口512,预测时域96。
实验结果表明:
- 通道独立策略具有压倒性的效率优势。它采用通道独立范式,将多元时间序列解耦为单变量过程,并在所有通道间共享权重,有效消除了通道间交互带来的计算冗余。
- 通道依赖和通道部分依赖策略由于需要显式建模复杂的通道间依赖关系,不可避免地引入了额外的架构组件(如注意力机制、动态图结构)。这种架构复杂度导致了巨大的计算负担,在高维数据集上的部署成本显著更高。
5 未来研究方向
论文指出,当前MTSF的通道建模仍存在诸多未解决的问题,未来研究可重点关注以下四个方向:
5.1 预测窗口内的通道相关性
目前,很少有模型关注预测窗口内部的相关关系。预测窗口的相关性直接影响预测结果的质量.
5.2 其他相关性特征的挖掘
现有研究方法已经探索和分析了通道相关性的六个特征,但在现实场景中,相关性还包含其他重要特征:
- 多分量性:将时间序列分解为趋势和季节性等多个分量已被证明能显著提升预测性能,未来可探索如何分别建模每个分量内部的通道相关性,以及如何整合多个分量之间的通道相关性;
- 多频性:相关性在时间序列数据的不同频率分量上可能表现出不同的行为,进一步探索这些特征有助于模型更好地理解和利用通道间的相关性。
5.3 多模态通道相关性建模
引入文本、图像、事件等多模态数据,能够弥补单一时间序列的信息缺口。例如,在电力负荷预测中,结合天气预报文本、节假日事件等信息,能够显著提升预测精度。未来可研究如何设计跨模态的通道关系建模机制,以及如何实现多模态信息的自适应融合。
5.4 基础模型的通道策略优化
多元时间序列基础模型主要遵循两种思路:基于大语言模型(LLM)的方法和时间序列预训练模型。以LLM为基础的模型因缺乏语言模态的通道维度通常采用通道独立策略,而大多数时间序列预训练模型为保证鲁棒性和避免复杂建模也多采用通道独立策略。现有方法仍相对基础,基础模型的通道策略仍有巨大的提升空间。
6 结论
本综述从通道策略视角对多元时间序列预测的深度学习方法进行了全面、系统的梳理。我们通过提出的"策略-机制-特征"三层级分类体系对现有方法进行了分类和总结,为该领域提供了一个清晰的结构化理解框架。同时,通过严谨的实验深入分析了各类通道策略的优势与局限性,给出了面向不同场景的实用模型选择建议。最后,我们展望了未来的研究方向,以期推动多元时间序列预测领域的进一步发展。