如今,IBM CUGA不仅在模拟企业场景中经受住了严苛测试,更在最新(2025年7月)的AppWorld Benchmark中荣登第一(注:AppWorld Benchmark 是一个由多个研究机构和学者共同创建 真正的"企业AI助手" 正在加速来到除了在AppWorld基准测试夺魁,IBM CUGA还在WebArena等真实浏览器任务中展现强大能力。
论文在AppWorld benchmark上做了个实验来观察这个现象。当LLM被要求在每个适应步骤完全重写累积的上下文时,上下文会发生崩溃。 AppWorld上遵循benchmark作者发布的官方ReAct实现,所有其他baseline和方法都基于这个框架构建。 Agent benchmark结果 表1显示,ACE在AppWorld benchmark上一致性地改进强baseline。 消融研究 表3报告AppWorld benchmark上的消融研究,分析ACE的各个设计选择如何促成有效上下文适应。 举例来说,AppWorld离线适应上,ACE相比GEPA达到82.3%适应延迟减少和75.1% rollout数量减少(表4a)。
智能体性能的跨越式提升在AppWorld智能体基准测试中,ACE展现出卓越的自我提升能力。 最具有市场价值的发现是:ACE框架使得一个较小的开源模型DeepSeek-V3.1,在AppWorld总平均分上(59.4%)能够匹配甚至在更难的测试-挑战(Test-Challenge)子集上超越基于 推理效率与成本结构的优化ACE通过增量式增量更新机制,避免了昂贵的整体重写,极大地降低了适应延迟和计算成本:适应延迟: 在AppWorld离线适应中,ACE相比GEPA,适应延迟降低了82.3%,Rollout
AppWorld 专门用来评测交互式编码 Agent 在"多应用 + 多用户"的复杂数字环境中的能力。 环境规模:基于 AppWorld Engine 搭建,包含 9 个日常应用(如笔记、消息、购物等),通过 457 个 API 暴露操作接口,并模拟了约 100 个虚拟用户的日常数字行为。 任务设计:AppWorld Benchmark 提供约 750 个任务,这些任务要求 Agent 不是简单顺序调用 API,而是生成包含复杂控制流的代码,跨应用协调完成如"整理事项、发消息、比价下单"这类真实工作流 AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents - https:
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents AppWorld 为填补这一空白,我们开发了 AppWorld Engine,这是一个包含 9 个日常应用、可通过 457 个 API 操作的高质量执行环境(60K 行代码),并模拟了约 100 名虚构用户的真实数字活动 接着,我们创建了 AppWorld Benchmark(40K 行代码),包含 750 个自然、多样且具有挑战性的自主智能体任务,这些任务需要丰富的交互式代码生成。 这凸显了该基准的难度以及 AppWorld 推动交互式编码智能体发展的潜力。项目网站位于 https://appworld.dev/。
其研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别以61.7%的成功率完成网络任务,以及48.2%的场景完成率来评估API任务——并指出,虽然这些分数足以让一名人类员工被解雇
在AppWorld基准测试中,ACE的表现堪称惊艳:无需任何标注数据,仅凭执行反馈就能让开源小模型性能提升17.1%,直接逼近顶级商用系统的水准。
-------------------1.实体类--------------------------------- -keep class com.gieseckedevrient.convego.appworld.prod.bean
在 AppWorld 排行榜中,尽管采用规模较小的开源模型,ACE 在整体平均指标上追平排名最高的生产级智能体,并在难度更高的测试挑战集上实现反超。