对于 agent 的测评,学术界和工业界提出了多种评测基准。这些基准针对不同场景(如通用任务、网页浏览、操作系统、办公软件、垂直领域等),通过构建交互环境和任务库来评估模型的规划、决策、工具使用、执行可靠性和安全性。按类别梳理当前比较有代表性的 Agent 基准分为以下几类。
目的:评估 LLM 作为 Agent 的推理与决策能力。
环境与任务:基准包含操作系统、数据库、知识图谱、数字卡牌游戏、智力拼图、家庭服务、网页购物和浏览等八个环境,任务通常需要 5–50 步才能完成。
特点:通过跨多个环境考察模型的多轮决策和长程推理能力。论文指出现有商业模型在复杂环境中表现较好,但开源模型仍有明显差距;失败原因主要包括长期推理和决策能力不足。

目的:测试 agent 的用推理能力,定位为"流体智能"(fluid intelligence - the ability to reason, solve novel problems, and adapt to new situations),是在没见过的新任务上做抽象、归纳、类比、组合规则的能力,而不是测背知识。

版本演进:
顾名思义,HLE 设计当成给 LLM/Agent 的一套"人类最后一次闭卷大考"。
特点:

难度:
所有题都由全球领域专家命题,多轮过滤 + 让前沿模型先"试考";模型做得不好人类再审题,确保题目是人类专家能做、模型却很吃力的那一档。题目设计成不能靠简单检索快速查到答案,必须靠模型自身的知识储备 + 推理能力来解答。
目标是接替已经"接近饱和"的 MMLU 等基准,成为一段时间内衡量 frontier 模型综合学术/推理能力的主力考试。
这个 benchmark 难度相当高,目前推理能力最强模型 Gemini 3 Deep Think 在这个 benchmark 上刚突破 40。

目的:补足通用基准对真实业务流程可靠性评测的不足。
场景:在零售、客服、航空等真实领域构建任务,要求 Agent 与模拟用户和 API 多轮互动以完成复杂目标。

新指标:提出 pass^k 统计,同一任务重复运行多次仍成功的概率,用于衡量 Agent 的稳定性和可靠性。
特点:强调遵守业务规则、长期对话、数据库状态一致性等,适合评估生产级客服或运营代理。
更新:今年 6 月发布了 τ²-Bench,增加了复杂度,引入了用户主动参与调用工具,更加考验 agent 的协作能力和真实场景泛化性。

环境:WebArena 构建电商、论坛、代码托管和内容管理等四类仿真网站,提供 812 个模版任务及多种变体。

评测指标:任务成功的定义基于是否达到最终目标状态,而不强制限定具体操作顺序;成功率由环境状态评估,不依赖人工评分。
特色:强调真实网页交互(点击、搜索、表单填写),适用于评估浏览器代理的操作能力和泛化性。
Mind2Web 是一个涵盖数百个真实网站和数十个领域的数据集,任务需要模型实时上网并综合多个页面信息。

Mind2Web 2 进一步面向 Agentic Search 和 Deep research Agent,构造了 130 个现实、长程、高难度搜索任务,同时提出 Agent-as-a-Judge 评估框架:为每个任务构建一个"判卷 Agent",基于树状 rubric 结构自动判定结果。

BrowseComp 是 OpenAI 提出的一个专门测试深度网页浏览 + 困难检索信息能力的 benchmark。

任务形式:
评测重点:
扩展版本:


目标:评估多模态 Agent 在真实操作系统上的能力。
任务集:构建 369 个真实电脑任务,涉及操作系统和各种桌面/网页应用,如文件管理、软件操作、跨应用工作流等。OSWorld-Human 另外收集人类完成这些任务的轨迹以对比效率。
特点:提供跨操作系统(Ubuntu/Windows/macOS)的统一环境,支持交互式学习和执行式评估,揭示现有模型在 GUI 操作、知识掌握方面的不足。

目的:解决许多基准只测原子任务的问题,评估 Agent 在长链办公流程中的能力。

内容:包含两套子集:OdysseyBench+ 收集 300 个来源于现实的办公任务,OdysseyBench-Neo 生成 302 个复杂任务。这些任务跨 Word、Excel、PDF、邮件、日历等应用,需要识别历史信息并进行多步推理。
创新:提出 HomerAgents 多智能体框架自动生成长链任务和对话,用以构建规模化基准。
专门用来评测交互式编码 Agent 在"多应用 + 多用户"的复杂数字环境中的能力。

环境规模:基于 AppWorld Engine 搭建,包含 9 个日常应用(如笔记、消息、购物等),通过 457 个 API 暴露操作接口,并模拟了约 100 个虚拟用户的日常数字行为。
任务设计:AppWorld Benchmark 提供约 750 个任务,这些任务要求 Agent 不是简单顺序调用 API,而是生成包含复杂控制流的代码,跨应用协调完成如"整理事项、发消息、比价下单"这类真实工作流。
评测方式:采用基于状态的单元测试进行程序化评估:
目标:系统衡量 LLM 在任务自动化中的能力。
方法:将自动化过程分为三个阶段:任务分解、工具选择和参数预测,并使用"工具图"表示任务结构。TaskEval 则为每个阶段提出自动化评测方法,确保结果与人工评分一致。

定位: 为复杂工作流的 agentic 评估提供标准化框架,方便开发者定位模型弱点。
数据构建:从 RapidAPI Hub 收集 16,464 个真实 REST API,利用 GPT-4 生成涉及单工具和多工具的多样化指令,并用搜索算法标注解决路径。

评测:开发自动评估器 ToolEval,用于判断模型选择 API、参数及调用顺序的正确性。
成效:基于 ToolBench 微调的 ToolLLaMA 能执行复杂指令并在未见过的新 API 上泛化良好。
如果往更工程一点看,现在普遍使用 BFCL 进行"函数调用 / 工具调用能力"测评。
特点:

指标设计:
BFCL 更像一个面向函数调用/工具调用的通用评测基建,现在已经发布了第 4 版(holistic agentic evaluation)。

Scale AI 做的一个专门测"真实工具调用 + 多步骤工作流"能力的榜单型 benchmark,所有任务都通过 Model Context Protocol (MCP) 调真实服务器上的工具来完成。

特点:
背景:面向真实软件仓库中的 bug 修复任务,测试 AI 系统解决 GitHub issue 的能力。

数据集:从 12 个流行 Python 仓库爬取 2,294 个"Fail-to-Pass"实例,构建执行环境,在缺少补丁时相关测试失败,但应用补丁后测试通过。
评测流程:系统读取 issue 描述,修改代码库解决问题,评测成功与否由测试用例决定。
扩展:后续衍生出 SWE-bench Verified、SWE-bench Bash Only、SWE-bench Multimodal 等系列,用以衡量不同模型和代理框架在代码修复上的表现和效率。
专门面向终端环境的 Agent 基准,评估 agent 能否自主处理现实世界中端到端终端可执行任务的能力。

目标:衡量 Agent 在真实 shell/terminal 中执行复杂任务的能力,从简单命令到完整的工程工作流(例如编译项目、配置环境、部署服务、跑数据管道等)。
任务与环境:
最新的 Terminal-Bench 2.0 进一步提升了任务质量和验证力度,将 Agent 容器化,支持大规模并行回放和 RL/SFT 训练闭环,同时提供更细粒度的环境级指标(不只 pass/fail),朝着"统一 Agent 评测基建"方向发展。
垂直行业 benchmark 主要包括医疗,金融,科研等数字化基础较好,并且有明确量化标准的行业。
斯坦福 ML Group 构建的虚拟电子病历(EHR)环境,用于评估医疗领域的 LLM Agent 能力。

任务设计:包含 300 个由医生编写的临床任务,横跨 10 个类别,需要 Agent 调用 FHIR API 在患者数据上进行检索、下医嘱、文档更新等操作。
环境特点:基于 100 个匿名患者、70 多万条医疗记录构建虚拟环境,支持真实的操作和状态追踪。该基准弥补了医疗 AI 评测仅停留在问答层面的不足,重视规划、决策和执行的综合能力。
支持实时金融交易构建的 benchmark,任务设置为持续长时间运行,而不是在固定历史窗口回放。

特点:
提供统一框架,内置多种 Agent 架构:InvestorAgent(单 Agent 基线)、TradeAgent / HedgeFundAgent(不同风险风格)、DeepFundAgent(带记忆和推理)等,同时对比多种模型后端(GPT-4o, GPT-4.1, Claude, Gemini 等)。
评测指标:
专门评估语言 Agent 在数据驱动科学发现工作流里的能力,不是只做简单 QA,而是写能跑的科研代码。

任务构造:
每个任务包含 4 部分:
评测方式:
目的:衡量 Agent 在面对恶意任务时的安全防护能力和潜在危害。

内容:包含 110 个明确恶意的任务,通过数据扩增生成 440 个测试实例,覆盖诈骗、网络攻击、骚扰等 11 类危害。
评估方法:不仅考察模型是否拒绝执行危险请求,还评估被 jailbreak 后是否仍能完成多步骤恶意任务。
发现:研究表明现有模型在无需越狱的情况下也常对恶意请求过度顺从,简单的越狱策略能诱导模型生成连贯且有害的行为。
目标:评估 Agent 仅利用语言反馈进行在线学习的能力。

内容:基准包含导航、推荐、机器人操作、诗歌生成等 8 类互动学习任务,通过随机化口头反馈使模型难以依赖提示词匹配。
特点:与强化学习不同,Agent 在 LLF-Bench 中不依赖奖励信号,而根据语言反馈改进策略;这样既更贴近人类教学过程,也方便非专业人士提供反馈。
意义:为研究如何让 LLM Agent"学会学习"提供了实验平台,同时检验模型的探索、记忆和元学习能力。
利用 LLM 驱动的 Agent 进行城市级社会模拟,研究人类行为和城市动态。

方法:Agent 采用递归价值驱动策略生成日程,平衡必需活动、个人习惯和情境因素,并具备空间与时间记忆、长期目标和信念模型。
实验:在模拟的城市环境中部署1000个Agent,开展宏观时间使用、旅行模式、地点流行度和集群密度等研究,结果显示该框架可用于分析群体行为和预测城市现象。
价值:虽然更偏研究,但为多智能体评测和社会模拟提供了新的实验平台,可用于研究协作策略、政策制定等问题。
从以上整理可以看出来,不同基准从多角度检验 Agent 的核心能力:
任务完成与过程评估:AgentBench、τ-Bench 等通用基准关注多环境任务成功率,TaskBench/TaskEval 则细分任务分解、工具选择与参数预测。
环境与交互复杂度:WebArena、OSWorld、OdysseyBench 等强调真实网站、桌面和办公流程,以交互式环境评估规划与执行能力。
垂直领域与安全:MedAgentBench、AgentHarm 等聚焦医疗和安全风险,专业场景需要关注合规与危害。
学习与仿真:LLF-Bench 和 CitySim 关注从反馈中学习、协作与群体行为,使 Agent 研究拓展到长期适应和社会系统。
但从实际 agent 的实际业务测评来看,现在没有一套标准通用的测评方法,核心指标还是看目标完成率(细化还要看完成质量),评估 agent 是否完成目标,另外成本也需要兼顾,看完成目标的 token 消耗,延时敏感的场景还要考虑延迟。agent的执行链路很长,模块很多,错误来源很多,所以细分的测试指标一般从多个失败来源进行测评。
Agent 场景任务失败的原因主要包括四个:
分别对应工具调用、任务规划、记忆、multi-agent 四大核心技术模块,都可以展开对应的测评来评估,另外生产一般还需要考虑安全性,避免产生有害的输出和动作。
综合来看,选择基准需要结合应用场景、关注指标和现有技术水平。未来可能出现覆盖各类能力的统一测试框架,但目前多基准并存有助于从不同侧面推动 Agent 在真实业务的标准化和规范化实现。