

美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。
VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。
美团 LongCat 团队首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。美团 LongCat 团队发现,即便是当前先进的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有 30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

随着大语言模型在复杂推理与工具调用能力上的快速进步,基于 LLM 的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:
通过对美团生活服务场景的深入分析,美团 LongCat 团队指出:真实世界的任务复杂性,源于三大维度的交织:
VitaBench 的评测榜单未来将由 AGI-Eval 评测社区长期维护更新,欢迎持续关注。榜单和论文地址如下:

为系统衡量这三重挑战下的模型表现,美团 LongCat 团队构建了 VitaBench,一个依托“生活服务”场景、高度仿真的综合性 Agent 评测基准。
本文数据均引用自 VitaBench 论文(arXiv:2509.26490v1),发布日期 2025 年 9 月 30 日。

VitaBench 的评测榜单未来将长期维护更新,欢迎持续关注:
接下来为大家详细介绍 VitaBench 数据集是如何构建以及如何推动 AI 在复杂生活场景中的实用化落地。
通过将 Agent 在环境中与 User、Tool 的交互建模为部分可观测马尔可夫决策过程(POMDP),VitaBench 进一步将智能体任务复杂度拆解到各个方面进行量化并提升:

量化智能体需要在部分可观测环境中的整合的信息量,具体通过以下指标衡量:
基于此,VitaBench 构建了大规模真实环境数据库,其中单个任务可涉及 5-20 个服务提供商、最多超过 100 个候选产品,每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间。
如果将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系,那么工具复杂度可以通过以下指标衡量:
基于此,VitaBench 从三个场景中提炼出 66 个真实工具并构建有向图,将领域规则编码到图结构中。其中工具通过 Python 函数实现,确保工具调用结果的稳定性和一致性。
反映智能体在用户的动态多轮对话中的掌控能力,通过以下机制实现:
基于此,VitaBench 为每个任务都配备了一个独特的用户角色,并通过 User Simulator 扮演,逐步向 Agent 提出需求。

VitaBench 通过两阶段流程构建:
阶段一:框架设计
阶段二:任务创建
VitaBench 将各领域的规则统一编码到工具图结构中,避免了冗余的领域策略文档(Domain Policy Document)。智能体无需依赖预设规则,而是通过工具描述自行推理领域逻辑。
这种设计使 VitaBench 能够灵活支持各种场景与工具集的自由组合。美团 LongCat 团队基于三个领域共构建了 400 项评测任务,其中包括:
每个任务均由多名专业标注人员和领域专家进行多次校验与复核,既确保任务具备足够的复杂度,又保证其可以顺利完成。数据统计结果如下表所示:

针对长轨迹评估的复杂性,美团 LongCat 团队还提出了基于 Rubric 的滑动窗口评估器。
传统的基于数据库状态比对的评估方法难以捕捉商品推荐、行程规划等不改变最终状态的行为,无法对 Agent 完成任务的过程进行有效监督。VitaBench 借鉴最新研究,将任务目标拆解为一组原子化评估准则(Rubric),实现了更全面、细粒度的行为覆盖。
评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个 rubric 的状态,确保跨窗口一致。最终以严格的「全有或全无」标准判断任务完成与否。
这种细粒度的设计不仅显著提升了评估的可解释性,也为未来的强化学习工作提供了更密集、更可靠的反馈信号。

美团 LongCat 团队在 VitaBench 上评测了包括 GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash 等在内的 20 余款主流大模型。
实验设置:
VitaBench 的主要结论如下:



美团 LongCat 团队进一步通过消融实验,验证了 VitaBench 所提出的三大复杂性维度的有效性:


为确保评测结果可信,美团 LongCat 团队对两个核心组件进行了严格验证:


在对模型错误案例的系统分析中,美团 LongCat 团队归纳出三大错误类别:推理相关错误(61.8%)、工具相关错误(21.1%)、交互相关错误(7.9%)。

美团 LongCat 团队分析发现,当前模型普遍存在以下具有代表性的失误模式:
这些问题表明,当前通用型智能体在推理、策略调度与自我反思等方面仍存在显著提升空间,为后续研究提供了明确方向。
VitaBench 是一个新发布的开源评测基准,旨在评估 AI Agent 在模拟真实生活场景中的表现。它引入了名为“Agentic Task Complexity”的理论框架,该框架重点分析推理、工具使用和交互这三大核心维度如何影响智能体的性能。该项目的名称“Vita”在拉丁语中意为“生活”,强调了其专注于评估智能体在现实世界应用能力的定位。目前,该项目的详细信息已在其官网上公布。欢迎访问项目官网,获取最新信息。
以上就是本次解读的全部内容,AGI-Eval 评测社区将持续追踪这场通往更强 Agent 的演进之旅,关注我们,后续将带来更多模型的深度剖析,敬请期待!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。