本文经AI润色处理
GAIA 全称是 “General AI Assistant”。它的目标不是只评估一个大语言模型(LLM)能不能写一段自然语言回答,而是评估它能不能像“智能助理”一样,去完成一项现实世界的小型任务。
从评估角度来说,GAIA更关注这些能力:
GAIA 的题目来自真实任务场景,包含了 450+ 道“非琐碎且有唯一答案”的问题。很多题都不是纯文本 QA,而是需要访问真实网页、读取 PDF、Excel、截图、音频等外部资料,然后给出一个可验证的最终答案。
一句话总结:GAIA 想测的是“谁更像一个真正能干活的 AI 助理”,而不是“谁说话更像人类”。
可以把 GAIA 的一次评测理解为这种流水线:
FINAL ANSWER: <答案>GAIA 的原则可以被很多团队直接拿去作为“Agent 评估标准”的蓝本:
核心精神:“评估 AI 的执行力,而不是语文功底。”
GAIA 把题目分成三层难度,差别主要在“要不要多工具协作”、“要不要自己规划”、“要不要跨模态信息整合”。
可以简单理解为:
下面是对 GAIA 题目需求的结构化总结(按照公开信息抽象、简化后列出)。 行是难度级别,列是常见能力/工具需求的出现次数。
Level | 题目量 | CSV/表格 | JSON/JSON-LD | 图片(OCR/读图表) | Web/联网检索 | 计算/代码执行 | 音频转写 | |
|---|---|---|---|---|---|---|---|---|
L1 | 53 | 3 | 2 | 0 | 3 | 27 | 10 | 2 |
L2 | 86 | 10 | 9 | 0 | 19 | 71 | 28 | 1 |
L3 | 26 | 5 | 5 | 1 | 6 | 25 | 11 | 0 |
观察点:
Level | 带附件题数 | CSV | XLSX | JSON/JSON-LD | 图片 | 其它(音频/代码/压缩包等) | |
|---|---|---|---|---|---|---|---|
L1 | 11 | 0 | 3 | 0 | 0 | 2 | 6 |
L2 | 20 | 0 | 7 | 3 | 0 | 7 | 3 |
L3 | 7 | 1 | 3 | 0 | 1 | 1 | 1 |
比较常见的附件后缀包括:
.xlsx, .csv(数据表).png, .jpg(截图、图表、扫描件).pdf(报告、清单、表格、目录).json, .jsonld(结构化元数据).mp3(音频转文字场景).docx、.pptx、.txt、.zip、.py 等从这些需求可以推导出:如果想在 GAIA 这种基准下表现得像“能上班的 AI”,一个 Agent 至少要具备:
很多团队在自建内部评测平台时,会参考 GAIA 的思路来搭一条自动化管线。一个常见的通用流程大致如下:
FINAL ANSWER: <答案>,不要解释过程。”$、%、千分位逗号等修饰;FINAL ANSWER: 42这条流程的核心价值是:可以持续、批量、统一地压测不同 Agent 或不同版本的同一 Agent,而不需要手工判卷。
很多团队会用“两阶段法”把 GAIA 风格的评测慢慢带入内部研发过程。下面是一种常见的抽象节奏(非任何特定组织的路线图,仅作为通用建议):
阶段 1:基础能力闭环
阶段 2:提升“像能上班的程度”
这种推进方式的优点:
在工程落地中,很多团队会在此基础上产出一些可运营的指标。这些指标是行业经验总结,非 GAIA 官方指标:
optimal_plan_len。
值越接近 1,说明它不是乱尝试一堆无关操作,而是高效完成目标。这些指标的共同点是——它们从“AI 答对没”升级到了“AI 是否可以放心托管真实工作流的一部分”。
GAIA 的定位不只是“问答正确率排行榜”。它试图回答一个更接近落地层面的问题:
“如果我把一个真实、细碎但具体的工作任务交给 AI,它能不能像一个靠谱的小同事一样,把事情按步骤办完,并给出一个可以程序化验收的结果?”
从这个角度来看,要在 GAIA 这种基准下表现得像“能上班的 AI”,一个 Agent 至少应该:
进一步地,在很多团队的工程化实践当中,评测还会扩展到以下问题:
当这些都能回答“是”,AI 才真正从“会聊天”进化成“可以托付一部分真实工作流”。 这,才是 GAIA 这一类基准对行业最大的启发。