搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏LCHub低代码社区
ModaHub魔搭社区：AI Agent在操作系统场景下的AgentBench基准测试
近日，来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench，用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者还表示，AgentBench是一个多维动态基准测试，目前由8个不同的测试场景组成，未来将覆盖更广的范围，更深入地对LLM进行系统性评估。左图，几种常见的LLM在AgentBench提供的8种场景中的表现。右图，AgentBench在8种场景中的总得分。虚线表示开源LLM（绿色）与基于API的LLM（橙色）的平均得分。图源：来自论文AgentBench评估哪些场景？AgentBench包含8个不同的环境，其中5个是首次使用的环境：操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题（即所谓的“海龟汤”游戏）。此外，AgentBench可以系统地评估LLM的核心能力，包括执行指令、编码、获取知识和逻辑推理能力。图片▷图注：AgentBench基本构想示意图。
1.1K00编辑于 2023-08-20
来自专栏技术人生黄勇
ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，开源模型表现非常糟糕！
这个AgentBench是评测LLM作为Agent的能力，通过评测LLM在细分任务的得分来确定LLM作为Agent的水平，主要结论就是商业模型表现远超开源模型，更加适合作为Agent来使用，而GPT-4 AgentBench简介 AgentBench是一个系统的基准，用于评估大语言模型（LLM）作为代理执行实际任务的能力。为此，AgentBench创建了8个不同的场景，针对上述能力来评估LLM作为Agent的表现，包括：操作系统：评估LLM在Linux系统的bash环境中的操作能力，如文件操作、用户管理等。但是，目前开源模型与商业模型之间还存在显著的差距，开源模型在AgentBench上普遍表现较弱。这提示开源LLM的代理能力仍有提升空间。 AgentBench论文：AgentBench: Evaluating LLMs as Agents 论文地址：https://arxiv.org/pdf/2308.03688.pdf AgentBench
87010编辑于 2024-07-19
来自专栏LCHub低代码社区
清华团队领衔打造，首个AI agent大模型基准测试网站问世AgentBench
为此，来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench(agentbench.com.cn)，用来评估 LLMs 作为智能体在各种真实世界挑战和相关研究论文以“AgentBench: Evaluating LLMs as Agents”为题，已发表在预印本网站 arXiv 上。另外，相关数据集、环境和集成评估包也已发布在 GitHub 上。 /AgentBench首个系统性基准测试在以往的研究和实践中，基于文本的游戏环境已被用于语言代理的评估。 (agentbench.com.cn)对 25 个不同的语言模型（包括基于 API 的模型和开源模型）进行了全面评估。测试结果显示，像 GPT-4 这样的顶尖模型能够处理各种各样的现实世界任务，而大多数开源 LLMs 在 AgentBench(agentbench.com.cn) 中的表现远远不及基于 API 的 LLMs
2.6K20编辑于 2023-08-14
2025年AI Agent评测基准全景指南：从选型困惑到落地实战
从OpenAI的PaperBench到美团的VitaBench，从学术界的AgentBench到企业级的评估框架，每个基准都声称能准确衡量智能体性能。 1.1市场现状：评测基准的三大阵营当前市场上的AIAgent评测基准可以分为三个主要阵营：学术研究阵营：以AgentBench、GAIA为代表，专注于通用能力评估优势：理论基础扎实，评测维度全面局限：与实际业务场景存在差距产业应用阵营实际意义：为生活服务类AI应用提供评测标准帮助企业评估AIAgent在多场景协同中的表现推动AI从单一任务向复杂场景应用的演进2.3AgentBench：多环境通用能力的全面检验AgentBench作为目前应用最广泛的多环境我们总结了一个实用的选型矩阵：科研与学术场景：首选：PaperBench+AgentBench组合理由：PaperBench专门评估学术研究能力，AgentBench提供通用能力基准适用对象：高校、科研院所评测方案：基础能力评测：使用AgentBench测试通用对话能力场景化评测：使用VitaBench的电商相关任务进行专项测试业务指标：自定义客户满意度、问题解决率等KPI实施过程：基准测试阶段：发现AI
2.4K11编辑于 2025-11-27
来自专栏有文化的技术人
Agent评测机制概述
主流评测基准 3.1 通用Agent评测基准基准名称发布机构评测重点任务类型 AgentBench 清华大学等综合Agent能力 8种环境任务 GAIA Meta+HuggingFace 通用：DeepEval、TruLens 生产环境监控：LangSmith、Arize Phoenix 多Agent系统：AgentNeo、MultiAgentBench 学术研究：OpenCompass、AgentBench
37920编辑于 2026-04-09
来自专栏GLM 技术文章
AgentLM：能打的 Agent 模型来了！7B，13B，70B 全开源
还记得在 8月份，我们公开的 AgentBench 测试榜单吗？在当时的榜单中，各类开源模型的智能体能力普遍表现不佳。答：的确，在 AgentBench 的榜单中我们可以清晰地看到开源模型和闭源模型之间的巨大鸿沟。
2.3K10编辑于 2023-12-22
来自专栏星河细雨
Agent常见测评基准概述
一、综合/通用基准 AgentBench 目的：评估 LLM 作为 Agent 的推理与决策能力。结论从以上整理可以看出来，不同基准从多角度检验 Agent 的核心能力：任务完成与过程评估：AgentBench、τ-Bench 等通用基准关注多环境任务成功率，TaskBench/TaskEval AgentBench: Evaluating LLMs as Agents – https://arxiv.org/pdf/2308.03688 2. arc-agi blog.
1.6K10编辑于 2025-12-24
大模型评测体系介绍及中文大模型表现
JEC-QA（中）、CUAD（美）软件：LogBench（中）、OpsEval（中）通信：NetEval（中）互联网：MSQA（美）代码助手：MBPP（美）、HumanEval（美） AI智能体：AgentBench
2.9K20编辑于 2025-05-30
来自专栏新智元
国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队
PART 4 智能体评测 AgentBench是一个评估语言模型在操作系统、游戏和网页等多种实际环境中作为智能体性能的综合基准测试工具包。游戏环境：游戏环境是AgentBench的一部分，旨在评估LLMs在游戏场景中的表现。在游戏中，通常需要智能体具备强大的策略设计、遵循指令和推理能力。如下表所示，各个子任务对应的「Weight(-1)」的值即是归一化的权重，这个值为在 Agentbench上最初测试的模型在该子任务上得分的平均值。
90210编辑于 2024-04-19
来自专栏技术人生黄勇
深度解析 Llama 2 的资源汇总：不容错过
ChatGPT 的“自定义”功能对免费用户开放，在问题信息不足情况下还会反问来获取必要信息 ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，开源模型表现非常糟糕
49410编辑于 2024-07-19
来自专栏机器之心
谁才是最强的？清华给海内外知名大模型做了场综合能力评测
PART/4 智能体评测 AgentBench 是一个评估语言模型在操作系统、游戏和网页等多种实际环境中作为智能体性能的综合基准测试工具包。游戏环境：游戏环境是 AgentBench 的一部分，旨在评估 LLMs 在游戏场景中的表现。在游戏中，通常需要智能体具备强大的策略设计、遵循指令和推理能力。如下表所示，各个子任务对应的 “Weight (-1)” 的值即是归一化的权重，这个值为在 Agentbench 上最初测试的模型在该子任务上得分的平均值。
2.6K10编辑于 2024-04-19
解密Agent智能体：从自动化到自主决策，AI的下一个引爆点
附录：自建Agent系统资源清单资源类型推荐工具学习曲线框架LangChain,AutoGen,CrewAI中等测试工具AgentBench,AgentSimulator陡峭部署平台AWSAgentRuntime
86410编辑于 2026-01-17
2024 企业级智能体产业落地研究报告
评测体系：分模型基础能力测试（MMLU、MMMU）、通用AI Agent任务测试（GAIA、AgentBench）、特定领域端到端测试（SWE Bench、BrowseComp），评测方式含最终输出、中间过程
34320编辑于 2026-04-02
来自专栏AI科技评论
别再说国产大模型技术突破要靠 Llama 3 开源了
大模型综合能力评测报告》基础上加测了 Llama 3 新发布的两个模型，测试了 Llama 3 在语义（ExtremeGLUE）、代码（NaturalCodeBench）、对齐（AlignBench）、智能体（AgentBench 按照大模型能力重点的迁移过程——从语义、对其、代码、智能体到安全，SuperBench评测数据集包含ExtremeGLUE（语义）、NaturalCodeBench（代码）、AlignBench（对齐）、AgentBench
77210编辑于 2024-05-06
来自专栏Reinvent Data Science
从科幻走向现实，LLM Agent 做到哪一步了？
当然，我们也可以看到，围绕 LLM Agent 的生态也已经开始逐渐丰富，大部分工作都可以归类到以下三个方面进行探索： Agent模型 AgentBench[4] 指出了不同的 LLM 对于 Agent
2K30编辑于 2023-11-06
来自专栏深度学习与python
比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law
在斯坦福大模型中心《AI 指数 2024》选定的智能体基准评测 AgentBench 上，AutoGLM 系列模型在 5 个测试环境中也取得了 SOTA 的成绩。
52710编辑于 2025-04-05
来自专栏技术人生黄勇
解锁人工智能项目开发的关键：Python 基础库详解与进阶学习
的资源汇总：不容错过 OpenAI又推新：使用ChatGPT进行内容审核中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用 ChatGLM团队发布AI Agent能力评测工具AgentBench
65310编辑于 2024-07-19
来自专栏技术人生黄勇
OpenAI又推新：使用ChatGPT进行内容审核
外媒也这么爱标题党 ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，开源模型表现非常糟糕！一键开启ChatGPT“危险发言”！
1.2K10编辑于 2024-07-19
来自专栏红蓝对抗
Agentic AI基础设施实践经验系列（六）：Agent质量评估
粗粒度检测：直接对比所有工具调用完成后任务环境的一致性（如 AgentBench 虚拟 Docker 环境验证、τ-bench 中的数据状态变更一致性检测）。本文系统梳理了 Agent 评估的必要性、多维度指标体系（业务、效率、伦理安全等），并详细介绍了三大主流评估框架的特点：AgentBench 专注跨环境泛化能力测试，AgentBoard 提供决策过程的细粒度分析
1.8K11编辑于 2025-12-05
来自专栏技术人生黄勇
REACT：在语言模型中协同推理与行动，使其能够解决各种语言推理和决策任务。
ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，开源模型表现非常糟糕！
1.1K10编辑于 2024-07-19

第 2 页

ModaHub魔搭社区：AI Agent在操作系统场景下的AgentBench基准测试

ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，开源模型表现非常糟糕！

清华团队领衔打造，首个AI agent大模型基准测试网站问世AgentBench

2025年AI Agent评测基准全景指南：从选型困惑到落地实战

Agent评测机制概述

AgentLM：能打的 Agent 模型来了！7B，13B，70B 全开源

Agent常见测评基准概述

大模型评测体系介绍及中文大模型表现

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

深度解析 Llama 2 的资源汇总：不容错过

谁才是最强的？清华给海内外知名大模型做了场综合能力评测

解密Agent智能体：从自动化到自主决策，AI的下一个引爆点

2024 企业级智能体产业落地研究报告

别再说国产大模型技术突破要靠 Llama 3 开源了

从科幻走向现实，LLM Agent 做到哪一步了？

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

解锁人工智能项目开发的关键：Python 基础库详解与进阶学习

OpenAI又推新：使用ChatGPT进行内容审核

Agentic AI基础设施实践经验系列（六）：Agent质量评估

REACT：在语言模型中协同推理与行动，使其能够解决各种语言推理和决策任务。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐