论文标题: Merlin: Multi-View Representation Learning for Robust Multivariate Time Series Forecasting with Unfixed Missing Rates
作者:Chengqing Yu (余澄庆), Fei Wang(王飞), Chuanguang Yang(杨传广), Zezhi Shao(邵泽志), Tao Sun(孙涛), Tangwen Qian(钱塘文), Wei Wei(魏巍), Zhulin An(安竹林), Yongjun Xu(徐勇军)
机构:中国科学院计算技术研究所,中国科学院大学,华中科技大学
论文原文:https://dl.acm.org/doi/10.1145/3711896.3737046
开源代码:https://github.com/ChengqingYu/Merlin
关键词:多元时间序列预测,多视图对比学习,知识蒸馏
导语:
多变量时间序列预测(MTSF)作为交通、环保、气象等领域的核心技术,却常常被“数据缺失”卡脖子——尤其是缺失率不固定时,现有模型要么预测精度暴跌,要么得反复训练。 为了解决这个问题,中国科学院计算技术研究所在 KDD 2025提出的 多视图表示学习框架(Merlin),用“教师教学生+多视图对比”的巧妙思路,一次性解决“数据缺失”和“不固定缺失率”两大难题,训练一次就能适配任意缺失率。
一、研究背景与核心问题:为什么数据缺失让模型“失灵”?
(一)MTSF 的核心价值与现实痛点
多元时间序列预测(MTSF)广泛应用于交通、环境、气象、能源等领域,核心是挖掘时间序列中的全局信息(如周期性、趋势)和局部信息(如细节变化),实现对未来值的精准预测。 但现实场景中,数据采集设备故障、自然灾害、信号中断等因素会导致数据缺失,且缺失率常随时间动态变化(即“不固定缺失率”),这给预测带来两大致命挑战:
- 语义破坏:缺失值会打乱时间序列的全局周期性(如交通早高峰规律),还会引入“突然归零”“异常直线”等虚假局部信息,现有模型易捕捉异常而非真实语义,导致预测精度显著下降;
- 鲁棒性不足:缺失率不固定时,现有模型需为每个缺失率单独训练,不仅训练成本高,还无法适配真实场景的动态缺失情况。
(二)现有方案的局限性
现有解决方案(如数据填充法、两阶段建模)存在明显缺陷:
- 两阶段预测模型:数据插补模型易破坏局部信息、进而造成积累误差;
- 端到端模型:仍需为不同缺失率单独训练,无法应对“不固定缺失率”,实用性受限。
二、核心创新:Merlin 模型设计
Merlin 的核心思想是语义对齐——让模型从缺失数据中挖掘与完整数据一致的语义,同时让不同缺失率的数据语义保持统一,无需单独训练即可适配动态缺失场景。其整体框架以轻量级模型 STID 为骨干,融合两大关键技术,结构清晰且易于落地。
(一)整体框教师——学生双模型架构
- 训练阶段:用完整数据训练“教师模型”,用不同缺失率的不完整数据训练“学生模型”;
- 测试阶段:仅用学生模型直接处理任意缺失率的不完整数据,无需教师模型参与,高效便捷。
(二)两大核心模块
1. 离线知识蒸馏(KD):对齐不完整数据与完整数据的语义
- 教师模型:基于完整的高质量数据训练,充分挖掘时间序列的全局规律与局部细节,输出高质量的特征表示()和预测结果(),作为“知识”约束学生模型;
- 学生模型:基于不同缺失率的不完整数据训练,通过 MSE 损失约束,强制其输出的特征表示()和预测结果()与教师模型对齐;
- 核心损失:包含特征表示蒸馏损失()和预测结果蒸馏损失(),确保学生模型从缺失数据中挖掘出接近完整数据的真实语义。
式中, 代表张量的均值.
2. 多视图对比学习(CL):对齐不同缺失率数据之间的语义
- 样本对构造:将“同一时间点、不同缺失率”的不完整数据视为正样本对,将“不同时间点”的不完整数据视为负样本对;
- 对比损失约束:通过余弦相似度计算对比损失(),增强正样本对的相似度、扩大负样本对的差异,让模型自动适配任意缺失率,无需单独训练。
3. 总损失函数:
为避免训练信息遗忘,融合三类损失,平衡监督学习、知识蒸馏与对比学习的效果:
- :L1 损失,衡量学生模型预测结果与真实值的差异;
- :损失权重,其中 和 随训练轮次动态调整,避免某类损失占比过高。
三、实验验证
在 4 个真实场景数据集上完成全面测试,结果显著优于主流方法,充分验证了 Merlin 的有效性与实用性。
(一)实验设置
- 数据集:覆盖交通(METR-LA、PEMS04)、空气质量(China AQI)、风能(Global Wind)四大领域,变量数从 207 到 2908 不等,时间粒度涵盖 5 分钟、1 小时、1 天;
- 基线模型:10+ 类主流方法,包括单阶段预测模型(TSMixer、FourierGNN、DSformer)、两阶段模型(STID+GPT2、MTGNN+SPIN 等);
- 评价指标:MAE(平均绝对误差)、RMSE(均方根误差)、MAPE(平均绝对百分比误差),值越小性能越好; - 测试场景:固定缺失率(25%/50%/75%/90%)、不固定缺失率(动态切换缺失率)、训练集含缺失值(模拟真实数据采集场景)。
(二)核心实验结果
1. 在所有数据集和不同缺失率下,STID+Merlin 均取得最优结果:
2. 鲁棒性与适配性双突出
- 迁移性强:可适配 STID、MTGNN、TimeMixer 等不同骨干网络,均能显著提升模型在缺失数据下的性能;
- 不固定缺失率适配:仅训练一次即可覆盖所有缺失率场景,无需单独建模,而基线模型单独训练的效果仍不及 Merlin;
3. 效率优势明显
- Merlin 仅需训练一次,单轮训练时间与主流两阶段模型接近;
- 基线模型需为不同缺失率多次训练,总训练成本是 Merlin 的 4 倍以上,落地成本大幅降低。
4. 消融实验验证组件必要性
- 移除知识蒸馏(w/o KD):性能明显下降,证明完整数据的语义引导不可或缺;
- 移除对比学习(w/o CL):性能下降严重,说明不同缺失率的语义对齐是适配动态缺失的核心;
- 移除任一蒸馏组件(w/o HD 或 w/o RD):性能均显著下降,验证了双蒸馏设计的合理性。
四、应用前景
Merlin 作为通用框架,无需修改现有骨干网络,可直接集成到各类 MTSF 模型中,落地成本低、实用性强,核心适用场景包括:
- 交通领域:城市道路流量预测、高速车流监控(设备故障导致数据缺失);
- 环保领域:AQI 空气质量预测、PM2.5 浓度监测(部分站点数据间断);
- 气象领域:全球风速预测(观测站数据不完整);
五、核心总结
Merlin 的三大核心价值
- 同时解决“数据缺失导致语义失真”和“缺失率不固定需重复训练”两大难题,填补真实场景落地空白;
- “知识蒸馏+对比学习”的思路,实现双重语义对齐,既保证精度又提升鲁棒性;
- 落地友好:轻量级架构、只需训练一次、适配多种骨干网络,降低工业界落地门槛。
推荐阅读
KDD 2025 | 用 20% 的数据得到 105% 性能:基于平衡采样的通用时序预测语料库 BLAST
KDD 2025 | 突破固定变量:通过扁平化和时空焦点学习进行扩张变量时序预测
2025 KDD | PatchSTG: 不均匀空间点 Patching 助力大规模时空图预测
BasicTS 1.0:面向时间序列分析的多任务统一框架与模块化工具箱
「万字长文」长序列预测 & 时空预测,你是否被这些问题困扰过?一文带你探索多元时间序列预测的研究进展!
如果觉得有帮助还请分享,在看,点赞