Agentic AI基础设施实践经验系列（六）：Agent质量评估

原创

亿人安全

发布于 2025-12-05 10:58:56

1.3K0

文章被收录于专栏：红蓝对抗红蓝对抗

Agent 评估：体系、框架与实践指南

1. Agent 评估简介

Agent 评估是对 Agent 在任务执行、决策制定和用户交互等方面的性能进行系统性评估与理解的过程。由于 Agent 具备固有自主性，评估其行为表现对于确保实际场景中可靠运行至关重要。

不包含工具调用的传统 Agent 常采用文本到文本的评估方式，类似标准大语言模型基准测试。但现代 AI 智能体的操作范围更广泛复杂，涵盖多步推理、工具调用、外部系统交互等，需要更全面的评估方法 —— 不仅需关注表面文本质量，还需衡量智能体的整体行为、任务成功率及与用户意图的一致性。

除任务性能外，Agent 评估必须优先考量安全性、可信度、政策合规性和偏见缓解等关键维度，这些因素是高风险环境部署的核心前提。同时，为避免开发出高性能但资源密集、难以落地的智能体，成本与效率指标也需纳入评估体系。

评估方法可包括基准测试、人机协作评估、A/B 测试和真实世界模拟等。通过系统性评估，既能优化自动化工作流程、提升业务功能，也能最大限度降低不安全、不可靠或有偏见的 AI 智能体带来的风险。

1.1 Agent 评估的必要性

（1）技术层面

Agent 具备自主决策能力，若决策存在偏差可能导致任务失败。评估可及时发现决策过程中的问题，避免错误决策造成损失。例如，金融风控场景中，信贷审核 AI Agent 若存在决策偏差，可能错误批准高风险贷款申请，给金融机构带来重大风险。

（2）业务层面

Agent 的表现直接影响业务开展与价值实现。评估可验证 Agent 是否满足业务需求、提高效率、降低运营成本。以电商客服场景为例，智能客服的任务完成率和用户满意度直接关系客户留存与销售额，通过评估优化可提升服务质量，促进业务发展。

（3）伦理与合规层面

Agent 应用需遵守伦理原则和法律法规，避免偏见、歧视及数据隐私泄露等问题。评估可有效排查伦理与合规风险，确保其符合社会伦理和法律要求。例如，招聘场景中，若筛选 Agent 存在性别或年龄偏见，可能违反公平就业法律，评估可及时发现并纠正此类问题。

（4）迭代层面

评估结果为 Agent 迭代优化提供明确方向。通过分析评估数据，开发者可定位 Agent 的不足，有针对性地改进，持续提升性能与能力，推动 Agent 技术迭代发展。

1.2 评估的一般步骤

（1）定义评估目标和指标

结合 Agent 的实际应用场景与期望输出，选择适配的评估指标，确保评估聚焦核心需求。

（2）收集数据并准备测试

优先使用真实场景数据构建测试数据集；根据任务类型与复杂度设计测试数据，尤其对于复杂多步骤任务，需构建完整推理步骤，保障评估效果。

（3）执行并分析结果

人工评估虽准确但速度慢、成本高，实际应用中常用 “LLM as Judge”（以能力较强的大模型作为评判者），兼顾效率与性价比。分析时需重点关注：Agent 是否选择了正确的工具 / 函数？是否在正确上下文传递了准确信息？是否产生事实无误的回应？

（4）优化测试数据集，迭代评估

根据评估结果优化测试数据集的覆盖度与合理性，通过 “评估 - 优化 - 再评估” 的闭环持续完善 Agent 性能。

1.3 常用评估指标介绍

Agent 评估指标可分为业务类型、效率类型、伦理与安全类型等，也可根据实际需求自定义指标。以下为常用指标示例：

1.3.1 业务类型指标

（1）任务完成率（Task Completion Rate, TCR）

计算公式：TCR=NC（其中，C 为成功完成的任务数，N 为总任务数）应用场景：

电商客服场景：智能客服处理 “退换货申请”“物流查询” 等任务时，成功解决用户问题的比例（如 100 个退换货咨询中 85 个无需转接人工，任务完成率为 85%）。
金融风控场景：信贷审核 Agent 自动审批贷款申请，结果与人工复核一致的比例（如 1000 笔申请中 920 笔审批结果准确，任务完成率为 92%）。

（2）决策准确率（Decision Accuracy）

计算公式：决策准确率正确决策步骤数总决策步骤数应用场景：

医疗辅助场景：AI 诊断 Agent 分析病历、影像报告时，症状匹配、疾病排除等关键推理步骤的正确比例（如 100 个诊断流程中关键决策正确率为 90%）。
供应链调度场景：仓储调度 Agent 规划货物分拣路径时，优先级排序、仓位分配等步骤符合最优方案的比例（如 100 次调度中 88 次路径规划无冗余）。

（3）工具调用正确率（Tool Call Accuracy）

计算公式：工具调用正确率合理工具调用次数总工具调用次数应用场景：

企业 HR 场景：招聘 Agent 筛选简历时，调用 “学历验证接口”“工作经历核查工具” 的必要性比例（如 100 次简历筛选中 90 次工具调用为核实关键信息）。
旅游服务场景：行程规划 Agent 定制旅行方案时，调用 “机票比价工具”“酒店库存查询 API” 的合理性比例（如 100 次工具调用中 85 次直接辅助生成符合用户需求的方案）。

1.3.2 效率指标

（1）平均任务耗时（Average Time）

计算公式：平均任务耗时（其中，tend,i 为第 i 个任务的结束时间，tstart,i 为第 i 个任务的开始时间，N 为任务总数）应用场景：银行柜台辅助场景中，柜员辅助 Agent 处理 “开卡”“转账” 等业务时，从用户提交资料到完成操作的平均时间（如 100 笔开卡业务总耗时 300 分钟，平均耗时 3 分钟 / 笔，需与人工办理效率对比）。

（2）平均交互轮数（Average Steps）

计算公式：平均交互轮数（其中，stepsi 为第 i 个任务的交互轮数，N 为任务总数）应用场景：零售客服场景中，智能客服处理 “退换货”“商品咨询” 等服务时，从用户发起咨询到问题解决的平均对话轮数（如 200 个退换货咨询共产生 1400 轮对话，平均交互轮数为 7 轮 / 次，轮数越少说明 Agent 理解与解决问题的效率越高）。

1.3.3 伦理与安全性指标

偏见发生率（Bias Rate）

计算公式：偏见发生率因偏见导致错误决策的次数总决策次数应用场景：

招聘场景：招聘筛选 Agent 对简历的评估是否存在性别 / 年龄偏见（如同等条件下优先排除女性候选人），若 1000 份简历评估中 30 份因不合理偏见被错误筛选，偏见率为 3%。
打车平台场景：网约车调度 Agent 是否对郊区用户存在派单延迟偏见，若 1000 次郊区订单中 50 次因偏见导致派单慢于合理时间，偏见率为 5%。

1.4 评估框架介绍

常见 Agent 评估框架如下表所示：

框架名称	主要聚焦	特点	商用 / 开源
AgentBoard	轨迹与事件回放	细粒度多轮交互评测、可视化回放，支持能力拆解与过程分析	开源
AgentBench	LLM-as-Agent 综合基准	8 大模拟环境覆盖对话、游戏、文件操作等场景，支持多模型横向对比	开源
τ-bench (Tau-bench)	用户 - Agent 真实对话评测	三层评估（数据库、策略文档、用户模拟），聚焦零售客服、航旅等业务场景	开源
GAIA	现实复杂、多模态、多步骤问题的通用能力测评	多模态任务、通用性强，考察系统性 AI 能力	开源
WebArena	仿真 Web 环境下的自动任务执行与复杂交互	高仿真可控的 Web 环境，覆盖电商、协作开发等场景，支持复杂任务链	开源

1.4.1 AgentBoard

AgentBoard 是专为多轮交互、多任务环境设计的评估平台，旨在通过细粒度能力拆解、轨迹回放和可视化分析，解决传统评估指标无法反映 Agent 内部决策过程、探索策略和计划执行一致性的问题。其核心是通过过程能力拆解、多轮交互轨迹追踪和部分可观测环境模拟，实现对 Agent 全流程的细粒度评估。

（1）工作原理

多轮交互追踪：记录 Agent 在任务中的每一步操作、状态变化和工具调用，形成完整交互轨迹。
能力拆解指标：引入 “进度率”“探索效率”“计划一致性” 等指标，量化 Agent 在任务推进、探索策略和执行遵循上的表现。
环境部分可观测：模拟真实环境中信息有限的场景，考察 Agent 在信息不足时的推理和探索能力。
可视化分析：通过轨迹回放、热力图、能力对比图，帮助开发者直观理解 Agent 行为瓶颈。

（2）核心组件

组件	作用	关键技术 / 实现细节
环境模拟器	构建部分可观测环境（如网页、游戏、仿真）	使用虚拟环境、API 封装，限制信息访问
Agent 接口	连接待评测 Agent，支持多轮交互	API 封装，支持多模型、多策略
轨迹记录器	记录每轮交互的状态、动作、工具调用	日志存储、事件追踪（JSON / 数据库）
能力拆解指标计算器	计算进度率、探索效率等指标	规则定义、自动统计
可视化面板	轨迹回放、指标分析、热力图	前端交互、动态图表（D3.js、Mermaid）

（3）评测指标

AgentBoard 提供多维度、细粒度的评测指标，主要包括：

任务成功率（Success Rate）：Agent 在规定最大交互步数内 “完全达到” 环境目标的比例。
进度率（Progress Rate）：多步任务中已完成子目标的比例，反映累进式推进能力。
落地准确率（Grounding Accuracy）：每步操作（如点击、API 调用）生成 “合法、可执行” 动作的比例，评估动作有效性及环境交互质量。
维度能力评分：将 Agent 能力拆解为记忆（Memory）、规划（Planning）、建模（World Modeling）、回顾（Retrospection）、落地（Grounding）、空间导航（Spatial Navigation）六大维度，分别打分。
难度分层分析（Easy/Hard Breakdown）：分别统计 “易”“难” 子集的成功率与进度率，识别不同难度样本的性能差异。
长程交互趋势（Long-Range Interaction Curve）：展示随着交互步数增加，进度率的变化趋势，评估长任务中的持续推进能力。

1.4.2 AgentBench

AgentBench 是应用广泛的多环境、多任务评测基准，旨在全面衡量 LLM 驱动的 Agent 在多场景下的泛化能力和实际表现。它通过统一接口和标准化任务集，支持多样化环境（如文件系统、数据库、网页、游戏等），实现不同模型的横向对比和能力评估，填补了以往评测场景单一、维度有限的空白。

（1）设计目标

多场景覆盖：涵盖操作系统（OS）、数据库（DB）、知识图谱（KG）、数字卡牌游戏（DCG）、横向思维谜题（LTP）、家务任务（HH）、网页购物（WS）、网页浏览（WB）八个环境。
多维度评测：评估指令跟随、问题分解、代码执行、逻辑推理与常识推理等核心能力。
开源可扩展：提供 Dev/Test 划分、Docker 环境复现、标准化 API 接口，方便添加新模型与任务。
环境封装：每个环境以 Docker 容器形式封装，隔离依赖与数据，确保评测可复现（如 OS 使用 Ubuntu、DB 使用 MySQL）。

（2）评价指标

环境	评测指标	含义
Operating System (OS)	Success Rate (SR)	限定交互步数内，成功完成所有子任务（如文件操作、命令执行）的比例
Database (DB)	Success Rate (SR)	正确生成并执行 SQL 查询，匹配预期结果的比例
Knowledge Graph (KG)	F1 Score	问答任务中，输出与标准答案在精确率与召回率上的调和平均
Digital Card Game (DCG)	Reward	对战中获得的平均回合得分（胜负与收益），衡量策略优劣
Lateral Thinking Puzzles (LTP)	Game Progress	猜出剧情要点（sub-goals）数占总要点数比例，反映横向推理深度
House-Holding (HH)	Success Rate (SR)	模拟家居环境中完成指定任务（如摆放物品）的比例
Web Shopping (WS)	Reward	模拟电商网站检索并下单的综合得分，考虑价格最优与流程效率
Web Browsing (WB)	Step SR	网页浏览任务中，每一步动作（点击、输入）成功执行的比例

（3）数据集与划分

Dev 集：包含 4,000 多条多轮交互样本，用于内部调试和方法迭代，支持多次试验调整。
Test 集：包含 13,000 多条多轮交互样本，用于公开 leaderboard 排名和最终性能评估，不公开标签以保证公平竞争。
模型覆盖：对比 27 种不同类型的模型，包括开源模型（如 GPT-J、LLaMA 系列）和 API-based 商用模型（如 OpenAI GPT-4、Anthropic Claude）。

1.4.3 τ-bench (Tau-bench)

τ-bench 是评估 AI 智能体在真实世界环境中可靠性的基准测试，核心是模拟 “用户–Agent–工具” 三方多轮交互，衡量 Agent 在真实业务场景中完成任务的可靠性、规则遵循和稳定性。

（1）测试流程

智能体与模拟用户交互，通过多轮对话了解需求并收集信息；
智能体使用特定领域的 API 工具（如预订航班、退货等）；
智能体必须遵守提供的特定领域规则和限制；
通过比较最终数据库状态衡量任务成功与否；
使用 pass^k 指标评估多次（k）尝试中完成同一任务的可靠性。

（2）核心评测指标

任务成功率（pass¹）：Agent 在单次对话中，将数据库状态从初始状态变更到目标状态的比例（一次性成功率）。例如，100 次零售场景退货对话中 60 次成功完成，pass¹=60%。
重复稳定性（passᵏ）：Agent 连续 k 次重复执行同一任务全部成功的概率，衡量一致性和可靠性。例如，pass³=0.22 表示 100 次任务中仅 22 次能连续三次成功。
规则合规率（Rule Compliance Rate）：任务过程中严格遵循领域策略文档（如 “基础经济舱不可改签”）的比例。例如，58 次成功航旅改签对话均按规则执行，合规率 = 100%。
平均延迟（Average Latency）：从收到用户第一条请求到任务完全完成的平均时间，衡量效率和用户体验。例如，200 次电商对话总耗时 640 秒，平均延迟 = 3.2 秒 / 次。
会话长度（Session Length）：完成一次任务所需的平均对话轮数，反映交互简洁性。
错误分类（Error Breakdown）：统计失败对话的主要错误类型及占比（如 “未询票号”“违规直改”），帮助诊断弱点。

2. Agent 质量评估实践建议

2.1 如何构建一个通用 Agent 评估方案

2.1.1 评估数据的准备

优先从实际业务数据中采集，构建标准 Agent 测试集，确保数据真实性和场景适配性。
若无真实业务数据，可通过人工创建示例数据，再通过 self-instruct 方式生成一批测试数据集完成冷启动。

2.1.2 评估指标

（1）工具调用准确率

工具调用准确率是 Agent 应用的基础保障，决定任务成败，必须纳入评估，可选择以下两种评估方式：

细粒度检测：逐个对比工具调用的合理性，以及调用参数提取的正确率。
粗粒度检测：直接对比所有工具调用完成后任务环境的一致性（如 AgentBench 虚拟 Docker 环境验证、τ-bench 中的数据状态变更一致性检测）。

（2）总体任务完成率

总体任务完成度指标随应用场景变化，部分场景与工具调用准确率的粗粒度评估方式相近，可通过以下方式检测：

查看最终数据状态或系统状态变更的一致性；
对于有明确标准答案且格式固定的数据集，可使用 Rouge、Bleu、完全匹配率、编辑距离等规则进行评估。

2.1.3 归因分析

评估完成后，针对失败测试用例分析原因，针对性优化 Agent 应用。归因分析可采用基于规则的方式，也可使用 LLM as Judge（如 τ-bench 的做法）。

2.1.4 其他建议

结合自动化与人工评估：自动化指标提供量化见解，人工评估补充连贯性、相关性等定性判断；也可使用 LLM 替代人工进行总体评估，支持对最终回答或中间推理过程打分（需注意评估模型的推理能力和上下文窗口要求）。
结合场景选择指标：不同用例需适配不同评估方法（如聊天机器人优先关注参与度和连贯性，翻译系统侧重准确性和流畅性）。
评估过程监控：借助 Langfuse 等开源可观测性框架，监控 Agent 任务的完成成本、推理时延等指标。

2.2 例 1 - 使用 τ-bench 实现客服对话式 Agent 评估

参考 τ-bench 的评估思路，基于 Strands Agents + Langfuse 复现零售 Agent（Retail Agent），模拟评估流程：通过 Langfuse 观测跟踪中间结果与指标，方便人工复查；评估任务性能与成本；最后用 LLM as Judge 对失败任务进行归因分析。

2.2.1 测试数据准备

收集历史客服对话记录；
准备标准问答对，涵盖常见问题、异常情况、多轮对话；
实际应用中，可参考 τ-bench 思想准备业务场景数据集，将数据库一致性校验替换为实际业务数据的一致性检测。

2.2.2 评估指标

准确率：回答正确的比例；
响应速度：平均回答时间；
解决率：一次性解决问题的比例。

2.2.3 评估方法

自动对比标准答案；
人工打分评估。

2.2.4 评估流程

核心交互流程为 “Retail Agent - 环境 - 用户” 通信（参考 τ-bench 交互流）：

Retail Agent：通过调用工具或直接回应用户执行操作；
环境：完成所有交互，执行工具调用并传递消息；
用户模拟：基于每个任务的指令生成真实用户响应；
工具：Retail Agent 可调用的特定领域功能（如退货处理、订单查询）。

2.2.5 评估结果

（1）任务完成率

通过 Agent 执行后的数据一致性判断最终任务完成率，例如零售场景中退货流程的数据库状态变更是否符合预期。

（2）失败任务归因分析

利用 LLM as Judge 对失败案例分类（如 “未验证用户身份”“工具调用参数错误”“违反业务规则”），定位核心问题。

（3）可观测性监控

通过 Langfuse 追踪 Agent 每次任务的完成时间、中间交互时间、Token 消耗等指标，实现成本与效率管控。

2.3 例 2 - 使用 AgentBoard 完成 Deep Research Agent 执行效果评估

参考 AgentBoard 的评估思路，基于其框架实现天气报告助手（Weather Report Assistant）Agent，模拟天气查询智能助手的评估流程：通过 SummaryLogger 观测跟踪中间结果与关键指标，评估任务执行效率和准确性；最后通过评估指标分析对失败任务进行归因。

2.3.1 Agent 核心功能

地理位置查询：获取全球各地地理坐标；
天气数据查询：当前天气、历史天气、未来预报；
空气质量查询：获取空气质量指数和等级；
地理信息查询：海拔高度、地理距离计算；
天气报告生成：整合数据生成含生活建议的报告。

2.3.2 测试数据准备

收集优质天气查询样本作为参考；
准备不同难度的查询主题（如简单的 “今日温度”、复杂的 “未来一周出行天气建议”）；
覆盖多个城市和气候场景。

2.3.3 评估指标

准确性：事实和数据是否正确；
完整性：报告内容是否全面；
逻辑性：结构是否清晰合理；
实用性：是否对用户决策有帮助。

2.3.4 评估方法

专家评分（1-10 分）；
与标准天气报告对比；
成本效益分析（Token 消耗、响应时间）。

2.3.5 核心评估指标计算与结果分析

（1）成功率（Success Rate）

定义：进度率达到 100% 的任务占比，仅区分 “成功（1）” 或 “失败（0）”；
计算：成功完成的任务数总任务数；
示例：5 个任务中 2 个完全成功，成功率 = 40%。

（2）进度率（Progress Rate）

定义：多步任务中已完成子目标的比例（取值范围 [0,1]）；
计算：完成的子目标数 / 总子目标数（如 “查询坐标→获取温度→获取降雨→生成报告” 分解为 4 个子目标）；
示例：5 个任务的进度率分别为 1.0、0.6、0.2、1.0、0.8，平均进度率 = 72%。

（3）落地准确率（Grounding Accuracy）

定义：Agent 执行动作与预期动作的匹配程度，仅判断 “无错误执行”（动作无 ERROR 返回）；
计算：正确执行的关键步骤数 / 总步骤数；
局限：无法判断工具选择是否最优，仅能验证执行有效性。

（4）结果分析示例

总体表现：5 个测试样本成功率 100%，平均进度率 100%，落地准确率 84.07%，说明 Agent 能有效完成任务，但存在部分无效工具调用；
单样本差异：部分样本仅需 2 步完成（落地准确率 100%），部分样本需 9 步（落地准确率 71.43%），反映复杂查询需多次工具调用，且存在格式错误等问题；
优化方向：针对格式错误优化工具调用模板，针对复杂任务优化子目标拆分逻辑。

2.4 例 3 - 使用自定义 TaskManager 对 AI 考题生成 Agent 执行评估

2.4.1 Agent 场景

AI 考题生成 Agent 支持多题型（单选、多选、填空）、多难度（简单、中等、困难），可基于 URL 或文本参考资料生成考题，输出交互式 HTML 页面（支持中英文双语）。

2.4.2 评估流程集成

考试生成流程与 TaskManager 监控流程紧密协同：

初始化阶段：考试生成流程创建工作流，TaskManager 记录信息并建立回调连接；
执行阶段：Agent 调用工具时，回调机制捕获事件，TaskManager 记录工具调用详情；
完成阶段：工作流结束后，TaskManager 更新状态并生成评估报告；
异常处理：捕获工具调用失败事件，记录错误信息并触发重试机制。

2.4.3 评估结果分析

json

{
  "execution_time": 57.709012,
  "performance_metrics": { "average_tool_execution_time": 5.2745411 },
  "status": "completed",
  "step_statistics": { "completed": 1, "completion_rate": 1, "failed": 0, "total": 1 },
  "tool_call_statistics": { "failed": 0, "success_rate": 1, "successful": 10, "total": 10 },
  "tool_distribution": {
    "extract_exam_metadata": { "average_execution_time": 4.868112, "successful": 1 },
    "generate_fill_blank_question": { "average_execution_time": 3.708187, "successful": 1 },
    "generate_multiple_choice_question": { "average_execution_time": 3.473318, "successful": 3 },
    "generate_single_choice_question": { "average_execution_time": 3.528803, "successful": 3 },
    "plan_exam_content": { "average_execution_time": 4.543524, "successful": 1 },
    "validate_exam_format": { "average_execution_time": 18.619223, "successful": 1 }
  }
}

关键结论

整体表现：工作流成功完成，工具调用成功率 100%，总执行时间 57.7 秒；
性能瓶颈：validate_exam_format 工具执行时间最长（18.62 秒），是主要优化点；
优化建议：
1. 改进 validate_exam_format 工具（如增量验证、并行验证）；
2. 优化题目生成工具的缓存机制，提升重复查询效率；
3. 并行执行 extract_exam_metadata 和 plan_exam_content，缩短总耗时；
局限：未覆盖考题质量评估（如题目合理性、难度适配性），需补充 LLM as Judge 或人工评估环节。

总结

Agentic AI 评估是确保 AI 智能体安全可靠运行的关键环节。本文系统梳理了 Agent 评估的必要性、多维度指标体系（业务、效率、伦理安全等），并详细介绍了三大主流评估框架的特点：AgentBench 专注跨环境泛化能力测试，AgentBoard 提供决策过程的细粒度分析，τ-bench 聚焦真实业务场景的可靠性评估。

实践中，建议根据具体业务场景选择适配的评估方案：构建覆盖常规、边缘和对抗性场景的测试集，结合自动化评估（如工具调用准确率、数据一致性检测）与人工 / LLM 验证（如内容质量、伦理合规性），通过 “评估→优化→再评估” 的闭环持续提升 Agent 性能。未来，Agent 评估需进一步强化多模态支持、复杂业务规则适配和用户体验量化，以应对更广泛的实际应用需求。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S16

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S16

#s16

登录后参与评论

0 条评论

热度