📚标题:PhaseFormer: From Patches to Phases for Efficient and Effective Time Series Forecasting
🖊作者:Yiming Niu*, Jinliang Deng*, Yongxin Tong
🏫机构:北京航空航天大学
📄论文链接:https://arxiv.org/abs/2510.04134
🗄️Github:https://github.com/neumyor/PhaseFormer_TSL
✨TL;DR:来自北京航空航天大学的研究团队提出了PhaseFormer——一种新的基于相位建模的极简时序预测模型。它通过提取跨周期相同偏移位置的数值构建Token,仅需1k左右参数即可在多个基准任务上达到 SOTA,凭借相位表征的强平稳性与低秩特性,实现了预测性能与计算效率的提升。
🔥关键词:时序预测,相位建模,周期性

周期性是时间序列预测的核心特征,尽管现有的基于切片(Patch)的方法通过捕捉序列语义提升了预测效果,但其高昂的参数规模和计算成本限制了其在大规模复杂数据集上的应用。本文首次通过理论与实证揭示了切片处理模式的效率瓶颈,并提出了一种全新的相位(Phase)建模视角,即通过提取跨周期相同偏移位置的数值构建相位Token,以此获得比切片表征更强的平稳性与低维特性。在此基础上,本文设计了轻量化预测模型PhaseFormer,利用紧凑的相位嵌入和轻量化路由机制实现高效的跨相位信息交互。实验结果显示,PhaseFormer仅需约1k参数即可在多个基准数据集上达到领域领先水平,相比PatchTST等模型减少了99.9%以上的参数量与计算开销,且在处理复杂、高波动的现实数据集时表现尤为卓越。理论分析进一步证实了相位化表征在周期模式偏移下的稳健性,为实现高效且精准的时间序列预测提供了新的范式。
时间序列预测在金融、能源、气候科学和医疗保健等多个领域支撑着决策过程,在天气预报、能源消耗规划和交通调度等任务中发挥着关键作用。近年来,深度学习通过利用端到端建模和强大的表征能力,展示了从历史推断未来趋势的巨大潜力。预测模型中的一个核心归纳偏置是周期性,即许多现实世界时间序列中固有的循环时间结构。周期性在实践中无处不在,从城市交通流到云资源利用率等各种领域都有体现,这使得周期感知建模具有广泛的适用性。
最近的研究进展通过将序列分割成切片token来利用这一特性,然后再由精心设计的模型进行处理。例如,已有研究将Transformer应用于token化的时间序列,以捕捉周期内和周期之间的相关性,或者通过建模跨维度依赖和跨尺度交互扩展了这一范式。尽管切片法有效,但我们观察到它们在扩展到大型复杂数据集往往不可避免地需要更大的模型参数和计算量。我们将这种较差的可扩展性归因于现实场景中周期模式的显著变异性,其源于不断改变周期模式的动态外部因素。例如,随着新基础设施的引入,交通流量模式可能会演变,而电力需求则可能随工作安排的调整而改变。这种变异性迫使模型构建高维表征空间以忠实地适应更广的分布,这不可避免地增加了参数数量和计算成本。

因此我们想换个视角来审视“周期性”,引入了相位的概念。相位是时间序列分析中存在已久的概念,简单来说,相位token关注的是连续周期中相同偏移位置的数值(比如每天凌晨3点的流量),而不是一整块时间碎片。
为了揭示时间序列建模的底层逻辑,我们对表征空间的特征演化进行了深度解构,由此发现了“切片(Patching)”与“相位(Phase)”在语义刻画上的本质鸿沟。通过对ETTh1、Electricity和Traffic等跨领域数据集上的测试,我们发现传统的切片token在时间长河中往往呈现出无序且持续漂移的演化轨迹,仅能维持极其脆弱的局部平稳性。相比之下,相位token却在长期观测下展现出了更好的全局平稳性,形成了一系列高度聚焦且特征紧凑的聚类。
这种直观的分布优势在量化指标上得到了更具震撼力的体现。最大均值差异(MMD)的计算结果显示,相较于切片,相位表征在各个基准数据集上均实现了显著的分布散度降幅,从ETTh1的85.4%到Traffic的94.7%,这种分布的极度聚焦为模型在非平稳环境下的泛化提供了坚实支撑。
更令我们感到惊喜的是,进一步的物理特性分析揭示了相位空间天然的低秩结构。主成分分析(PCA)的实验数据表明,仅仅2个维度就足以解释相位token90%以上的方差,而切片token若要达到同等解释力则需多达11个以上的维度。这种特征空间的高度压缩性不仅大幅消减了信息冗余,更从物理层面解释了我们的核心洞察:通过相位这一全新视角,我们能够以极小的参数代价捕捉序列的本质动态。这一发现不仅颠覆了我们对时序特征提取的认知,更直接催生了我们提出基于相位视角的新型高效预测架构。

在对时间序列预测范式的深度反思中,我们意识到传统的“切片(Patching)”机制虽然捕捉了局部语义,但其伴随而来的计算代价与对动态波动的脆弱性已成为制约模型扩展的瓶颈。正因如此,我们提出了PhaseFormer,通过从“相位(Phase)”这一全新维度重构时间序列,实现了预测精度与计算效率的质变。

不同于以往模型将相邻观测值打包的方式,我们的相位分词机制旨在提取时间序列中深层次的结构规律。通过对时间序列进行频率域分析,我们能够确认一个大致制约系统动态的主周期,进而在归一化后通过循环填充与重塑操作,将原始的一维序列映射为二维的相位-周期矩阵。在这一表征空间中,每一行相位Token实际上聚合了跨周期的同偏移位置数值。这种设计的精妙之处在于,相比于随时间漂移的切片token,相位Token展现出了显著的全局平稳性与特征紧凑性。这种归纳偏置不仅简化了模型的学习目标,更为后续极其高效的特征处理奠定了理论基石。
为了将这一表征优势转化为实际的计算优势,我们针对相位空间天然的低秩特性,设计了轻量化的跨相位路由层,以替代成本高昂的全局自注意力机制。在标准Transformer中,的复杂度往往让长序列处理捉襟见肘,而我们发现,由于相位间存在高度的信息冗余,仅需极少量的可学习路由器即可捕获全局依赖。通过“相位-路由聚合”与“路由-相位分发”的两阶段协同,模型能够将全局上下文压缩至紧凑的路由空间中,过滤掉无关的随机噪声,再精准地反馈给各相位Token。这种瓶颈结构的设计,不仅消除了对输入序列长度的二次依赖,更在仅用约8个路由器的情况下,便实现了比全连接注意力更优的预测性能,深刻诠释了“少即是多”的架构美学。
在预测阶段,我们采用参数共享的统一线性预测头。这一决策源于我们的深刻洞察:预测剧烈波动的原始序列是困难的,但预测每个相位随周期的平稳演变趋势却是极其高效的。通过让所有相位共享同一套预测参数,我们不仅极大地压缩了模型的参数规模,更通过这种强力的正则化手段迫使模型学习跨相位的普适规律,有助于提升模型在复杂、非平稳数据集上的泛化能力。最终,通过逆向的去分词与去归一化过程,PhaseFormer能够产生极其稳健且高精度的未来轨迹。
为了验证PhaseFormer的有效性,我们在涵盖电力、交通、天气等多个领域的7个标准长时序列预测数据集上进行了测试。
PhaseFormer实现了精度与效率的“双重突破”,在几乎所有数据集上都达到了最优性能。


我们通过消融实验验证了PhaseFormer核心组件的必要性:


=

本文提出了一种新的基于相位的时间序列预测模型PhaseFormer。该模型创新性地将建模视角从切片(Patch)转向相位(Phase),通过提取跨周期对齐的相位token并将其映射至低维共享潜空间,利用轻量化的路由机制实现高效的跨相位交互与预测,从而克服了切片式方法在处理周期模式偏移时的冗余与低效。实验表明,PhaseFormer在七个主流基准数据集上均取得了领域领先的预测精度,且在参数量和计算开销上较PatchTST等切片模型实现了99.9%以上的大幅缩减;尤其在大规模和异质复杂数据集上,该模型凭借相位表征的全局稳健性展现出卓越的泛化能力,为实现兼顾极轻量化与高精度的长程时间序列预测提供了新的理论依据与技术路径。
推荐阅读
ICLR 2026 | 打破时间序列“黑盒”:TimeOmni-1开启深度时间序列推理新篇章
ICLR 2026 | MixLinear 时频互补 双域融合,0.1K 参数极端低资源下的多元时间序列预测
ICLR 2026 | 打破CI/CD二元对立:CPiRi——基于通道置换不变性的多元时空解耦新范式
欢迎各位作者投稿近期有关时空数据和时间序列录用的顶级会议和期刊的优秀文章解读,我们将竭诚为您宣传,共同学习进步。如有意愿,请通过后台私信与我们联系。
如果觉得有帮助还请分享,在看,点赞