GAIA 测评体系

吃猫的鱼Code

发布于 2025-11-04 09:04:45

1.1K0

文章被收录于专栏：吃猫的鱼个人博客编程笔记吃猫的鱼个人博客编程笔记

本文经AI润色处理

GAIA 测评

一、GAIA 是什么？

GAIA 全称是 “General AI Assistant”。它的目标不是只评估一个大语言模型（LLM）能不能写一段自然语言回答，而是评估它能不能像“智能助理”一样，去完成一项现实世界的小型任务。

从评估角度来说，GAIA更关注这些能力：

能否合理使用外部工具（检索、浏览器、OCR、文件解析、代码执行等）。
能否自己规划出一条可执行的解决路径，并按步骤推进。
能否基于真实世界的信息做出准确结论，而不是“瞎猜答案”。

GAIA 的题目来自真实任务场景，包含了 450+ 道“非琐碎且有唯一答案”的问题。很多题都不是纯文本 QA，而是需要访问真实网页、读取 PDF、Excel、截图、音频等外部资料，然后给出一个可验证的最终答案。

一句话总结：GAIA 想测的是“谁更像一个真正能干活的 AI 助理”，而不是“谁说话更像人类”。

二、GAIA 官方评测流程（标准版）

可以把 GAIA 的一次评测理解为这种流水线：

取题
- 从 GAIA 数据集中挑题。
- 题面可能带附件（PDF、图片、表格、JSON 等）。
- 每个题都被设计成：人类做起来是常规工作，但 AI 需要多步推理 + 工具协同，不能靠死记硬背。
零样例提示（zero-shot）
- 把题面原样给被测 Agent。
- 不给示例答案、不喂思路。
- GAIA 推荐使用统一的 system prompt，并要求最终以固定格式回答，比如： FINAL ANSWER: <答案>
自由解题
- Agent 自由发挥，包括联网检索、爬网页、解析文件、OCR、跑代码、调用外部服务……
- GAIA 不强行规定“只能用哪些 API”。也就是说，测试环境尽量还原真实世界的开放性。
产出最终答案
- 只收最终答案这一行。
- 中间过程的推理内容、工具日志等，不参与主观评分。
自动比对
- 用程序把 Agent 的最终答案和标准答案做严格比对（字符串或数值规则）。
- GAIA 在设计题目时尽量让答案短、客观、唯一，方便自动化比对。
汇总评分
- 统计整套题里答对了多少道题，得到准确率（%）。
- 在公开对比中，人类的通过率可以达到 90%+，而某些强模型即便具备工具能力，整体正确率依旧明显偏低。这反映出：难度不在“语言表达”，而在“真实执行力”。
难度分级 / 榜单
- 题目分为 L1 / L2 / L3 三个等级。
- 数据集分公开部分和受控部分（验证集 vs 测试集），测试集的标准答案通常是受限下载的，避免刷榜。
- 社区会基于此做排行榜。

三、GAIA 的评测原则

GAIA 的原则可以被很多团队直接拿去作为“Agent 评估标准”的蓝本：

任务必须是真实世界任务 不是脑筋急转弯，而是现实工作里真的有人会做的事。
对人类直观，但对 AI 需要多步推理 / 工具协作 例如：查一份 PDF，提取出某个结论；或者读一份 Excel 聚合后排序出最小值。
每题要有一个客观、唯一、可验证的终态答案 避免开放式长篇争论题。要的是“我能自动判你对不对”。
不限制工具使用 Agent 可以自由调用外部工具。公平性通过“期望路径 / 等价路径 / 最短步数”来衡量，而不是限定方法。
禁止“赌运气” Agent 必须真正完成信息获取和推理，而不是靠记忆库里碰巧背到答案。
尽量自动化打分 不依赖人工主观判断，提高可重复性和可规模化。
问题可扩展 / 可迁移 同一套题最好能跨模型、跨技术栈、跨基础设施形态去测，保证横向可比。

核心精神：“评估 AI 的执行力，而不是语文功底。”

四、难度分级体系（L1 / L2 / L3）

GAIA 把题目分成三层难度，差别主要在“要不要多工具协作”、“要不要自己规划”、“要不要跨模态信息整合”。

Level 1（基础任务）

特征：基本是单步或近似单步的任务，比如一次检索、一次查表、一次简单计算。
典型像：
- “请在某篇公开论文里找到某个实验装置的体积（单位：立方米）”。
- 解法往往是：搜到论文 → 打开 PDF → 找到那段 → 抄出数值。
这类任务对人类几乎是 Ctrl+F 的级别。

Level 2（中级任务）

特征：多步操作 + 多工具配合，往往要读附件（CSV/XLSX/PDF/截图）并做聚合或筛选。
示例类型：
- “给你一份全球城市空气质量的 CSV，请找出 2022 年全年 PM2.5 均值最低的城市。”
- 需要：读取文件 → 根据年份过滤 → 按城市求年均 → 排序 → 取最小者并输出城市名。
这类任务逼 AI 像“一个数据分析助理”。

Level 3（高级任务）

特征：开放式、跨来源、多模态、多跳推理，往往还包含信息整合和自主规划。
示例类型：
- “附件是一份 JSON-LD，里面是多位研究者的公开信息。请计算他们在 2020 年之前发表作品的平均数量是多少？”
- 需要：解析结构化 JSON → 统计每个人在截止时间点前的产出 → 再做平均。
这类任务更接近“专业研究助理 / 运营助理 / 技术支持工程师”的真实工作。

可以简单理解为：

L1：能查能算。
L2：能查 + 能读复杂文件 + 能统计分析。
L3：能查 + 能读复杂文件 + 能跨信息源规划执行路径，像一个半自动同事。

五、题目涉及的能力画像

下面是对 GAIA 题目需求的结构化总结（按照公开信息抽象、简化后列出）。行是难度级别，列是常见能力/工具需求的出现次数。

不同难度下题目用到的能力（出现次数示例）

Level	题目量	CSV/表格	PDF	JSON/JSON-LD	图片(OCR/读图表)	Web/联网检索	计算/代码执行	音频转写
L1	53	3	2	0	3	27	10	2
L2	86	10	9	0	19	71	28	1
L3	26	5	5	1	6	25	11	0

观察点：

联网检索 / 网页读取 是压倒性主角，尤其在 L2/L3。
代码执行 / 计算沙盒 出现频率随着难度上升而显著提高，因为很多问题要求准确的统计/聚合，而不是“语言上模糊总结”。
多模态（图片/OCR/表格截图）理解 从 L2 开始变得很常规。
结构化数据处理（Excel、CSV、JSON、PDF 表格提取）是“日常需要”，而不是高级特性。

附件类型分布（带附件的题里常见的文件类型）

Level	带附件题数	CSV	XLSX	PDF	JSON/JSON-LD	图片	其它(音频/代码/压缩包等)
L1	11	0	3	0	0	2	6
L2	20	0	7	3	0	7	3
L3	7	1	3	0	1	1	1

比较常见的附件后缀包括：

.xlsx, .csv（数据表）
.png, .jpg（截图、图表、扫描件）
.pdf（报告、清单、表格、目录）
.json, .jsonld（结构化元数据）
.mp3（音频转文字场景）
以及 .docx、.pptx、.txt、.zip、.py 等

从这些需求可以推导出：如果想在 GAIA 这种基准下表现得像“能上班的 AI”，一个 Agent 至少要具备：

联网检索 + 网页解析能力
- 不是只看标题，而是真正能提取网页正文、表格、列表里的信息。
文件解析能力
- 能读 CSV/XLSX 做聚合统计；
- 能从 PDF 里抽正文/表格；
- 能从截图/OCR 出文字或数值；
- 能正确解析 JSON / JSON-LD。
受控计算/代码执行能力
- 能在一个安全的环境里算平均数、比例、排序、聚合等，而不是“猜个大概”。
（可选但重要）多步执行/半自动化操作能力
- 在更复杂的题目里，Agent 需要像一个助理一样自己决定下一步要做什么，并坚持把任务办完。

六、标准化输出与评测流程（平台视角）

很多团队在自建内部评测平台时，会参考 GAIA 的思路来搭一条自动化管线。一个常见的通用流程大致如下：

遍历测评集
- 每道题包含题面、附件（可选）、难度等级、标准答案。
把题发给待测 Agent
- 题面+附件（附件通常会以可访问的 URL 形式提供给 Agent）。
- 在 system prompt 里明确回答格式要求，比如：
  - “请最终只输出一行：FINAL ANSWER: <答案>，不要解释过程。”
Agent 自主解题
- Agent 可以自由调用自己接的各种工具（网页抓取、OCR、表格解析、代码执行等）。
- 评测平台不强行指导，只记录过程和最终回答。
轮询 / 拉取最终回答
- 平台会不断查询会话，直到 Agent 声称“完成”。
归一化（Normalization）
- 对最终答案做标准化处理，以便可比对：
  - 去除无关前缀、统一大小写/空白；
  - 数字不允许带 $、%、千分位逗号等修饰；
  - 列表要保持顺序、定长；
  - 最终必须是一行，形如： FINAL ANSWER: 42
- 限制：
  - 只能是数字、短字符串，或用逗号/分号分隔的有限列表；
  - 不允许多余解释或附加语气；
  - 如果是数字，不要混着单位符号；
  - 如果是列表，顺序必须和标准答案一致。
自动比对
- 将归一化后的结果与标准答案进行严格匹配，避免人工打分。
汇总得分
- 报告整体正确率，作为该 Agent 的 GAIA-style 评分。

这条流程的核心价值是：可以持续、批量、统一地压测不同 Agent 或不同版本的同一 Agent，而不需要手工判卷。

七、落地路径（通用实施计划模板）

很多团队会用“两阶段法”把 GAIA 风格的评测慢慢带入内部研发过程。下面是一种常见的抽象节奏（非任何特定组织的路线图，仅作为通用建议）：

阶段 1：基础能力闭环

目标：
- 先验证最基础的题型，比如 Level 1 里那些主要依赖“联网检索+基础阅读理解”的题。
Agent 侧：
- 优先接入：联网检索、网页正文提取、简单文本处理。
评测侧：
- 先做一个最小可用的评测脚手架：
  - 题目投喂 → 最终回答抓取 → 自动匹配对错 → 出一个正确率。
产出：
- 第一版可量化指标（它到底能做成多少“人类一分钟能搞定的小事”）。

阶段 2：提升“像能上班的程度”

目标：
- 引入更多 Level 2 / Level 3 风格的任务：带附件的分析、跨模态信息的提取、简单的“先后两步操作”。
Agent 侧：
- 增强能力：表格解析（CSV/XLSX）、PDF 抽取、截图/OCR、结构化 JSON 解析、受控计算/统计。
评测侧：
- 支持对附件进行统一托管和 URL 化，自动传给 Agent；
- 支持记录/回放 Agent 的工具调用过程，用于后续分析。
产出：
- 可对外界说“这个 Agent 不只是会聊天，它已经能完成一些典型的办公/运维/研究类小任务”。

这种推进方式的优点：

可以渐进式衡量 Agent 的“实际可用性”，而不是一上来就要求它无所不能。
有利于把评测体系，逐步沉淀成类似“回归测试”，后面每次 Agent 升级都能重跑对比。

八、常见扩展指标（行业习惯做法）

在工程落地中，很多团队会在此基础上产出一些可运营的指标。这些指标是行业经验总结，非 GAIA 官方指标：

目标达成率 多少任务的全部断言都通过了。直观理解：Agent 真的把事办成了没。
路径效率 Agent 实际调用工具的次数 ÷ optimal_plan_len。值越接近 1，说明它不是乱尝试一堆无关操作，而是高效完成目标。
参数准确率 Agent 调用工具时传的参数是否符合工具的入参约束（字段名拼写正确、值的范围正确等）。这是判断“它会不会用公司已有接口”的关键信号。
安全确认遵从率 对于高风险动作（例如开公网、删资源、付费操作等），Agent 是否按规范先进行确认，而不是直接执行。很多团队会把这一条作为“能不能上生产”的硬性门槛。
执行耗时 任务完成所需时间，用于评估是否能在真实工作流中承担“准实时助手”的角色。

这些指标的共同点是——它们从“AI 答对没”升级到了“AI 是否可以放心托管真实工作流的一部分”。