📚标题:TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models
🖊作者:Tong Guan, Zijie Meng, Dianqi Li, Shiyu Wang, Chao-Han Huck Yang, Qingsong Wen, Zuozhu Liu, Sabato Marco Siniscalchi, Ming Jin, Shirui Pan
🏫机构:格里菲斯大学(Griffith),浙江大学,NVIDIA,松鼠AI,巴勒莫大学,挪威科技大学
📄论文链接:https://arxiv.org/abs/2509.24803
🤗Hugging Face:https://huggingface.co/anton-hugging/TimeOmni-1-7B
🗄️Github: https://github.com/AntonGuan/TimeOmni-1
🔮Demo:https://huggingface.co/spaces/anton-hugging/TimeOmni-1
🚩TL; DR: 来自格里菲斯大学(Griffith)、浙江大学、英伟达(NVIDIA)等机构的研究团队共同推出了TimeOmni-1——首个面向复杂时序推理的通用模型。实验表明,它在从“感知”到“外推”再到“决策”的全链路时序推理任务上,都展现出强分布外泛化能力与高有效响应率。

近期,多模态时间序列学习的研究范式呈现出一个重要转变:从聚焦于基础的模式分析,迈向更深层次的时间序列理解和推理。然而,现有的多模态时间序列数据集大多停留在表面对齐和简单问答的层面,未能触及真正的深度推理。由于(1)尚未明确定义:什么是需要时间序列推理能力的任务,(2)缺乏高质量的数据,构建实用的时间序列推理模型(TSRMs)一直受限。
为此,我们正式提出Time Series Reasoning Suite(TSR-Suite)——首个系统化定义时序推理能力的数据套件,它不仅支持对TSRMs的全面评估,还提供了训练数据的构建流程。TSR-Suite 将时间序列推理拆解为三大核心能力,并通过四个原子任务进行形式化建模:
核心能力 | 原子任务 | 实际场景举例 |
|---|---|---|
🔍 感知 Perception | 场景理解 + 因果发现 | “河流监测点A水流量显著增加,是哪一个上游分支导致的?” |
🔭 外推 Extrapolation | 事件感知预测 | “周日Albert Park将举办一场F1比赛,出租车需求量会如何变化?” |
🎯 决策 Decision-making | 在感知与外推的基础上的决策 | “基于我的用电习惯,管理我的家庭储能电池的充放电策略。” |
TSR-Suite共包含超过23,000个样本,其中2,339个是通过人工引导的分层思维链标注流程(Hierarchical CoT Annotation)精心筛选的。
在此基础之上,我们正式推出TimeOmni-1——首个旨在解决各类需要时序推理能力的现实问题的通用推理模型。该模型采用多阶段训练,融合多任务场景混合、全新奖励函数设计与针对性训练优化。实验结果表明,TimeOmni-1在各项任务上具备强分布外泛化能力,并实现了高有效响应率。与GPT-4.1相比,它在因果发现任务上的准确率显著提升(64.0% vs 35.9%),并且在事件感知预测任务上,有效响应率提高了6%。
时间序列数据存在于各种现实世界系统中:如电网负荷、交通流量、金融行情、医疗监测等。但真正有价值的时序智能,从来不只是把一条曲线拟合得更准,而是要做多步、多跳的推理:识别外部因素驱动的变化,串起因果机制,预测事件带来的扰动,并最终支撑下游决策。尽管目前大语言模型在文本、代码等领域展现出了惊人的推理能力,然而这股浪潮尚未有效席卷时间序列领域。核心挑战在于两点:
(1)高质量时间序列推理数据的极度匮乏。现有的多模态时间序列数据集,如Time-MQA,大多停留在“表面对齐”式的简单问答,缺乏深度。如图1(a)所示,在这些数据集上,GPT-4.1等强推理模型与小型基线模型(如Qwen2.5-14B)的性能差距微乎其微,这表明任务本身无需真正推理即可完成。更严重的是,如图1(b)所示,强行进行推理反而会导致“想得太多”的过度思考现象。此外,许多问题因缺乏足够的上下文信息,导致模型性能卡在停滞在65%左右难以突破(如图1(c)所示),具体表现为选项定义模糊(如图1(d)所示,缺少明确的阈值来界定“高波动”、“中等波动”、“低波动”),这迫使模型只能“盲猜”阈值,而非基于数据和计算的合理推演。

(2) 跨任务时序推理模型的构建、训练尚未得到验证。当前研究多局限于为每种任务,甚至每个数据集独立训练模型(如TimeMaster为6个时间序列分类数据集,单独训练了6个大模型),这种碎片化的范式阻碍了时序推理能力的迁移与泛化。究竟哪些任务真正需要时序推理?如何训练一个能跨任务泛化的通用时序推理模型?这些问题尚未被系统研究。
面对这些挑战,我们不禁要问:如何真正激发大模型在时间序列任务上的推理能力,使其能处理复杂的现实问题?
为解决上述挑战,我们迈出了坚实的三步:
面对高质量时间序列推理数据的匮乏,我们首先需要回答:什么样的问答对才称得上高质量? 为此,我们确立了设计时序推理任务的两条核心原则:
基于这两条原则,我们紧接着回答:什么样的任务能真正激发和衡量模型的时序推理能力?为此,我们确立了时间序列推理的三大核心能力——感知(Perception)、外推(Extrapolation)和决策(Decision-making),设计了4个真正需要多步推理的原子任务(如图2所示),共同构成了 TSR-Suite。

为了从根本上解决数据匮乏的问题,我们严格遵循“感知-外推-决策”的能力路径,系统性地收集了横跨10个不同领域的时间序列数据。与以往仅作为测试集的基准不同,TSR-Suite从设计之初就是一个“训练+评估”的一体化套件,如图3(a)所示。它将任务1、2、4建模为离散输出的选择题,将任务3建模为序列输出的预测题,为后续的强化学习训练奠定了基础。TSR-Suite共包含23,605个精心筛选的问答对,规模远超同类数据集(如CiK仅355个样本,TSAIA仅1,054个样本),足以支撑模型的全面训练与评估。其中,最核心的2,339个CoT样本,是通过一套人工引导的分层思维链标注流程精制而成,如图3(b)所示:
最终,TSR-Suite不仅是一个评估基准,更是一个为训练真正具备时序推理能力的模型而生的“训练场与考场”。
基于TSR-Suite,我们训练了首个通用时序推理模型TimeOmni-1。我们设计了两阶段的流程,如图3(c)所示:

通过大量实验,我们揭示了构建时序推理模型的四点关键发现:



通过系统性的数据构建、两阶段的训练范式,以及对时序推理能力的成长路径的深入剖析,我们为构建具备通用时序推理能力的模型奠定了坚实基础。
如表1所示,TimeOmni-1在所有四个推理任务上均稳居前两名。因果发现任务上,TimeOmni-1以64.0%的准确率碾压GPT-4.1的35.9%,提升幅度高达28.1个百分点,证明了模型真正学会了从数据中推断时序因果关系。在事件感知预测任务中,TimeOmni-1的MAE最低,且有效响应率(SR)高达93.8%,远高于ChatTS(SR=0%,因为它根本不能输出数字序列,只能回答文本)。这说明我们的模型不仅想得明白,还能输出规范的预测结果。在决策任务上,TimeOmni-1同样领先,准确率58.9% vs GPT-4.1-Nano的34.1%。

如表2所示,我们进一步拆解了模型的各个设计要素,验证了之前提到的四点关键发现。这里补充两个重要的消融实验:

本文的附录还有更多实验结果与Case Study!
本文提出了 TSR-Suite,旨在解决时间序列推理关键数据稀缺的问题。该套件围绕时序推理的三大核心能力——感知、外推与决策,形式化了四个原子任务。以此为基础,我们推出了首个通用时序推理模型 TimeOmni-1。该模型首先通过监督微调注入时序先验,随后引入基于任务的奖励信号进行强化学习,引导其从模仿先验走向稳健推理。实验表明,TimeOmni-1 在取得顶尖性能的同时,完美保留了基座模型的通用推理能力。更重要的是,我们证明了跨不同推理任务的联合训练能带来相互增益,为未来的时序推理模型确立了 “一次训练,多任务通用” 的新范式。
方式一:在线Demo访问我们的Hugging Face Demo空间🔮https://huggingface.co/spaces/anton-hugging/TimeOmni-1,直接输入你的System Prompt以及时间序列推理问题。
方式二:本地推理
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# 模型路径(自动从Hugging Face下载)
model_dir = "anton-hugging/TimeOmni-1-7B"
# Question
question = """...(你的 question 放这里)..."""
# System Prompt(用于定义输出格式)
system_prompt = (
"Output Format:\n"
"<think>Your step-by-step reasoning process that justifies your answer</think>\n"
"<answer>Your final answer (Note: Only output a single uppercase letter of the correct option)</answer>"
)
def build_prompt(question, system_prompt):
return (
f"<|im_start|>system\n{system_prompt}<|im_end|>\n"
f"<|im_start|>user\n{question}<|im_end|>\n"
"<|im_start|>assistant\n"
)
# 加载Tokenizer和模型
tokenizer = AutoTokenizer.from_pretrained(model_dir)
device = "cuda"if torch.cuda.is_available() else"cpu"
model = AutoModelForCausalLM.from_pretrained(model_dir).to(device)
# 构建输入
inputs = tokenizer(build_prompt(question, system_prompt), return_tensors="pt").to(device)
# 生成推理结果
outputs = model.generate(
**inputs,
max_new_tokens=4096,
do_sample=True,
temperature=0.1,
top_p=0.001,
repetition_penalty=1.05,
)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))
AI论文速读 | 当大语言模型遇上时间序列:大语言模型能否执行多步时间序列推理与推断
Time-R1:让大模型通过强化微调学会在时间维度上推理未来,构建时序预测的新范式!
欢迎各位作者投稿近期有关时空数据和时间序列录用的顶级会议和期刊的优秀文章解读,我们将竭诚为您宣传,共同学习进步。如有意愿,请通过后台私信与我们联系。
如果觉得有帮助还请分享,在看,点赞