首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ICLR 2026 | 告别“切片”时代:PhaseFormer开启相位建模新范式,挑战时序预测效率极限

ICLR 2026 | 告别“切片”时代:PhaseFormer开启相位建模新范式,挑战时序预测效率极限

作者头像
时空探索之旅
发布2026-03-10 16:19:25
发布2026-03-10 16:19:25
830
举报
文章被收录于专栏:时空探索之旅时空探索之旅

📚标题:PhaseFormer: From Patches to Phases for Efficient and Effective Time Series Forecasting

🖊作者:Yiming Niu*, Jinliang Deng*, Yongxin Tong

🏫机构:北京航空航天大学

📄论文链接https://arxiv.org/abs/2510.04134

🗄️Githubhttps://github.com/neumyor/PhaseFormer_TSL

TL;DR:来自北京航空航天大学的研究团队提出了PhaseFormer——一种新的基于相位建模的极简时序预测模型。它通过提取跨周期相同偏移位置的数值构建Token,仅需1k左右参数即可在多个基准任务上达到 SOTA,凭借相位表征的强平稳性与低秩特性,实现了预测性能与计算效率的提升。

🔥关键词:时序预测,相位建模,周期性

0. 摘要

周期性是时间序列预测的核心特征,尽管现有的基于切片(Patch)的方法通过捕捉序列语义提升了预测效果,但其高昂的参数规模和计算成本限制了其在大规模复杂数据集上的应用。本文首次通过理论与实证揭示了切片处理模式的效率瓶颈,并提出了一种全新的相位(Phase)建模视角,即通过提取跨周期相同偏移位置的数值构建相位Token,以此获得比切片表征更强的平稳性与低维特性。在此基础上,本文设计了轻量化预测模型PhaseFormer,利用紧凑的相位嵌入和轻量化路由机制实现高效的跨相位信息交互。实验结果显示,PhaseFormer仅需约1k参数即可在多个基准数据集上达到领域领先水平,相比PatchTST等模型减少了99.9%以上的参数量与计算开销,且在处理复杂、高波动的现实数据集时表现尤为卓越。理论分析进一步证实了相位化表征在周期模式偏移下的稳健性,为实现高效且精准的时间序列预测提供了新的范式。

1. 引言

时间序列预测在金融、能源、气候科学和医疗保健等多个领域支撑着决策过程,在天气预报、能源消耗规划和交通调度等任务中发挥着关键作用。近年来,深度学习通过利用端到端建模和强大的表征能力,展示了从历史推断未来趋势的巨大潜力。预测模型中的一个核心归纳偏置是周期性,即许多现实世界时间序列中固有的循环时间结构。周期性在实践中无处不在,从城市交通流到云资源利用率等各种领域都有体现,这使得周期感知建模具有广泛的适用性。

最近的研究进展通过将序列分割成切片token来利用这一特性,然后再由精心设计的模型进行处理。例如,已有研究将Transformer应用于token化的时间序列,以捕捉周期内和周期之间的相关性,或者通过建模跨维度依赖和跨尺度交互扩展了这一范式。尽管切片法有效,但我们观察到它们在扩展到大型复杂数据集往往不可避免地需要更大的模型参数和计算量。我们将这种较差的可扩展性归因于现实场景中周期模式的显著变异性,其源于不断改变周期模式的动态外部因素。例如,随着新基础设施的引入,交通流量模式可能会演变,而电力需求则可能随工作安排的调整而改变。这种变异性迫使模型构建高维表征空间以忠实地适应更广的分布,这不可避免地增加了参数数量和计算成本。

因此我们想换个视角来审视“周期性”,引入了相位的概念。相位是时间序列分析中存在已久的概念,简单来说,相位token关注的是连续周期中相同偏移位置的数值(比如每天凌晨3点的流量),而不是一整块时间碎片。

为了揭示时间序列建模的底层逻辑,我们对表征空间的特征演化进行了深度解构,由此发现了“切片(Patching)”与“相位(Phase)”在语义刻画上的本质鸿沟。通过对ETTh1、Electricity和Traffic等跨领域数据集上的测试,我们发现传统的切片token在时间长河中往往呈现出无序且持续漂移的演化轨迹,仅能维持极其脆弱的局部平稳性。相比之下,相位token却在长期观测下展现出了更好的全局平稳性,形成了一系列高度聚焦且特征紧凑的聚类

这种直观的分布优势在量化指标上得到了更具震撼力的体现。最大均值差异(MMD)的计算结果显示,相较于切片,相位表征在各个基准数据集上均实现了显著的分布散度降幅,从ETTh1的85.4%到Traffic的94.7%,这种分布的极度聚焦为模型在非平稳环境下的泛化提供了坚实支撑。

更令我们感到惊喜的是,进一步的物理特性分析揭示了相位空间天然的低秩结构。主成分分析(PCA)的实验数据表明,仅仅2个维度就足以解释相位token90%以上的方差,而切片token若要达到同等解释力则需多达11个以上的维度。这种特征空间的高度压缩性不仅大幅消减了信息冗余,更从物理层面解释了我们的核心洞察:通过相位这一全新视角,我们能够以极小的参数代价捕捉序列的本质动态。这一发现不仅颠覆了我们对时序特征提取的认知,更直接催生了我们提出基于相位视角的新型高效预测架构

2. 模型方法

在对时间序列预测范式的深度反思中,我们意识到传统的“切片(Patching)”机制虽然捕捉了局部语义,但其伴随而来的计算代价与对动态波动的脆弱性已成为制约模型扩展的瓶颈。正因如此,我们提出了PhaseFormer,通过从“相位(Phase)”这一全新维度重构时间序列,实现了预测精度与计算效率的质变。

相位分词与逆分词的革新

不同于以往模型将相邻观测值打包的方式,我们的相位分词机制旨在提取时间序列中深层次的结构规律。通过对时间序列进行频率域分析,我们能够确认一个大致制约系统动态的主周期,进而在归一化后通过循环填充与重塑操作,将原始的一维序列映射为二维的相位-周期矩阵。在这一表征空间中,每一行相位Token实际上聚合了跨周期的同偏移位置数值。这种设计的精妙之处在于,相比于随时间漂移的切片token,相位Token展现出了显著的全局平稳性与特征紧凑性。这种归纳偏置不仅简化了模型的学习目标,更为后续极其高效的特征处理奠定了理论基石。

基于低秩发现的跨相位路由

为了将这一表征优势转化为实际的计算优势,我们针对相位空间天然的低秩特性,设计了轻量化的跨相位路由层,以替代成本高昂的全局自注意力机制。在标准Transformer中,的复杂度往往让长序列处理捉襟见肘,而我们发现,由于相位间存在高度的信息冗余,仅需极少量的可学习路由器即可捕获全局依赖。通过“相位-路由聚合”与“路由-相位分发”的两阶段协同,模型能够将全局上下文压缩至紧凑的路由空间中,过滤掉无关的随机噪声,再精准地反馈给各相位Token。这种瓶颈结构的设计,不仅消除了对输入序列长度的二次依赖,更在仅用约8个路由器的情况下,便实现了比全连接注意力更优的预测性能,深刻诠释了“少即是多”的架构美学。

相位级预测与参数共享

在预测阶段,我们采用参数共享的统一线性预测头。这一决策源于我们的深刻洞察:预测剧烈波动的原始序列是困难的,但预测每个相位随周期的平稳演变趋势却是极其高效的。通过让所有相位共享同一套预测参数,我们不仅极大地压缩了模型的参数规模,更通过这种强力的正则化手段迫使模型学习跨相位的普适规律,有助于提升模型在复杂、非平稳数据集上的泛化能力。最终,通过逆向的去分词与去归一化过程,PhaseFormer能够产生极其稳健且高精度的未来轨迹。

3. 实验验证

实验设置

为了验证PhaseFormer的有效性,我们在涵盖电力、交通、天气等多个领域的7个标准长时序列预测数据集上进行了测试。

  • 数据集:包括ETTh1/h2、ETTm1/m2、Weather、Electricity和Traffic。
  • 对比基线:涵盖了PatchTST、iTransformer、Crossformer等先进的Transformer模型,Moirai-2等预训练模型,以及FITS、SparseTSF等轻量级模型。
  • 评估指标:使用均方误差(MSE)和平均绝对误差(MAE)衡量预测精度,使用浮点运算数(FLOPs)和参数量(Params)衡量效率。
  • 硬件与配置:在单张NVIDIA A100 GPU上运行;输入的历史序列长度固定为720;使用Adam优化器,学习率为。

预测实验:相位视角带来效率跨越

PhaseFormer实现了精度与效率的“双重突破”,在几乎所有数据集上都达到了最优性能。

  • 高精度:在复杂的Traffic数据集上,PhaseFormer的预测精度超过了第二好的方法PatchTST约6%,超过TimeBase约10%。
  • 高效率:相比于PatchTST和Crossformer,PhaseFormer在Traffic数据集上实现了约99.99%的FLOPs削减。
  • 高鲁棒:在面对高波动、重噪声的GIFT-Eval测评(尤其指Web/CloudOps数据集)时,PhaseFormer在多个子任务上击败了拥有海量参数的Chronos和Moirai-2。这表明其“相位感知”设计在处理复杂现实负载时比大模型更具韧性。
  • 小参数:该模型仅需约1k左右的参数,即可在大型数据集上保持极高的竞争力。

消融实验:相位设计的优越性

我们通过消融实验验证了PhaseFormer核心组件的必要性:

  • 跨相位路由层的有效性:
    • 对比Full Attention:PhaseFormer不仅计算开销更低,误差也更小,证明了路由层能更有效地在低秩相位空间中捕捉交互。
    • 对比w/o Routing:直接预测每个相位而不进行交互会导致精度大幅下降(如Weather数据集MSE从0.150升至0.191),说明相间通信非常重要。
  • 路由器数量的影响:实验发现取较小值(如4或8)时效果最好。这印证了相位空间是低维的,极少量的路由器即可捕捉核心结构。这也与我们针对数据进行的PCA分析相契合。
=
=

=

  • 对长输入的高效利用:随着输入长度增加,PhaseFormer的预测误差持续下降。重点在于,其核心编码器的计算成本几乎保持恒定,因为复杂度受相位数(周期性)控制,而非原始序列长度。

4. 结论

本文提出了一种新的基于相位的时间序列预测模型PhaseFormer。该模型创新性地将建模视角从切片(Patch)转向相位(Phase),通过提取跨周期对齐的相位token并将其映射至低维共享潜空间,利用轻量化的路由机制实现高效的跨相位交互与预测,从而克服了切片式方法在处理周期模式偏移时的冗余与低效。实验表明,PhaseFormer在七个主流基准数据集上均取得了领域领先的预测精度,且在参数量和计算开销上较PatchTST等切片模型实现了99.9%以上的大幅缩减;尤其在大规模和异质复杂数据集上,该模型凭借相位表征的全局稳健性展现出卓越的泛化能力,为实现兼顾极轻量化与高精度的长程时间序列预测提供了新的理论依据与技术路径。

推荐阅读

ICLR 2026 | 打破时间序列“黑盒”:TimeOmni-1开启深度时间序列推理新篇章

ICLR 2026 | MixLinear 时频互补 双域融合,0.1K 参数极端低资源下的多元时间序列预测

ICLR 2026 | 打破CI/CD二元对立:CPiRi——基于通道置换不变性的多元时空解耦新范式

欢迎各位作者投稿近期有关时空数据和时间序列录用的顶级会议和期刊的优秀文章解读,我们将竭诚为您宣传,共同学习进步。如有意愿,请通过后台私信与我们联系。

如果觉得有帮助还请分享,在看,点赞

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0. 摘要
  • 1. 引言
  • 2. 模型方法
    • 相位分词与逆分词的革新
    • 基于低秩发现的跨相位路由
    • 相位级预测与参数共享
  • 3. 实验验证
    • 实验设置
    • 预测实验:相位视角带来效率跨越
    • 消融实验:相位设计的优越性
  • 4. 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档