搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

企业级AI的未来：通用型企业级 AI 智能体的重大突破
如今，IBM CUGA不仅在模拟企业场景中经受住了严苛测试，更在最新（2025年7月）的AppWorld Benchmark中荣登第一（注：AppWorld Benchmark 是一个由多个研究机构和学者共同创建真正的"企业AI助手" 正在加速来到除了在AppWorld基准测试夺魁，IBM CUGA还在WebArena等真实浏览器任务中展现强大能力。
24010编辑于 2025-07-21
来自专栏DeepHub IMBA
斯坦福ACE框架：让AI自己学会写prompt，性能提升17%成本降87%
论文在AppWorld benchmark上做了个实验来观察这个现象。当LLM被要求在每个适应步骤完全重写累积的上下文时，上下文会发生崩溃。 AppWorld上遵循benchmark作者发布的官方ReAct实现，所有其他baseline和方法都基于这个框架构建。 Agent benchmark结果表1显示，ACE在AppWorld benchmark上一致性地改进强baseline。消融研究表3报告AppWorld benchmark上的消融研究，分析ACE的各个设计选择如何促成有效上下文适应。举例来说，AppWorld离线适应上，ACE相比GEPA达到82.3%适应延迟减少和75.1% rollout数量减少（表4a）。
42010编辑于 2025-11-15
AI产品/技术经理必读：智能体上下文工程ACE如何解决LLM的“知识丢失”难题，构建可信赖系统
智能体性能的跨越式提升在AppWorld智能体基准测试中，ACE展现出卓越的自我提升能力。最具有市场价值的发现是：ACE框架使得一个较小的开源模型DeepSeek-V3.1，在AppWorld总平均分上（59.4%）能够匹配甚至在更难的测试-挑战（Test-Challenge）子集上超越基于推理效率与成本结构的优化ACE通过增量式增量更新机制，避免了昂贵的整体重写，极大地降低了适应延迟和计算成本：适应延迟：在AppWorld离线适应中，ACE相比GEPA，适应延迟降低了82.3%，Rollout
58810编辑于 2025-11-08
来自专栏星河细雨
Agent常见测评基准概述
AppWorld 专门用来评测交互式编码 Agent 在"多应用 + 多用户"的复杂数字环境中的能力。环境规模：基于 AppWorld Engine 搭建，包含 9 个日常应用（如笔记、消息、购物等），通过 457 个 API 暴露操作接口，并模拟了约 100 个虚拟用户的日常数字行为。任务设计：AppWorld Benchmark 提供约 750 个任务，这些任务要求 Agent 不是简单顺序调用 API，而是生成包含复杂控制流的代码，跨应用协调完成如"整理事项、发消息、比价下单"这类真实工作流 AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents - https:
1.4K10编辑于 2025-12-24
每周AI论文速递（240729-240802）
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents AppWorld 为填补这一空白，我们开发了 AppWorld Engine，这是一个包含 9 个日常应用、可通过 457 个 API 操作的高质量执行环境（60K 行代码），并模拟了约 100 名虚构用户的真实数字活动接着，我们创建了 AppWorld Benchmark（40K 行代码），包含 750 个自然、多样且具有挑战性的自主智能体任务，这些任务需要丰富的交互式代码生成。这凸显了该基准的难度以及 AppWorld 推动交互式编码智能体发展的潜力。项目网站位于 https://appworld.dev/。
37600编辑于 2025-04-08
可配置AI智能体CUGA：企业工作流自动化新尝试
其研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别以61.7%的成功率完成网络任务，以及48.2%的场景完成率来评估API任务——并指出，虽然这些分数足以让一名人类员工被解雇
12410编辑于 2025-12-31
Agentic上下文工程真能杀死LLM微调？
在AppWorld基准测试中，ACE的表现堪称惊艳：无需任何标注数据，仅凭执行反馈就能让开源小模型性能提升17.1%，直接逼近顶级商用系统的水准。
13710编辑于 2026-02-02
来自专栏胖虎的研发之路
Android 混淆（我的模板）
-------------------1.实体类--------------------------------- -keep class com.gieseckedevrient.convego.appworld.prod.bean
86020编辑于 2023-05-10
每周AI论文速递（251006-251010）
在 AppWorld 排行榜中，尽管采用规模较小的开源模型，ACE 在整体平均指标上追平排名最高的生产级智能体，并在难度更高的测试挑战集上实现反超。
39810编辑于 2025-11-20

企业级AI的未来：通用型企业级 AI 智能体的重大突破

斯坦福ACE框架：让AI自己学会写prompt，性能提升17%成本降87%

AI产品/技术经理必读：智能体上下文工程ACE如何解决LLM的“知识丢失”难题，构建可信赖系统

Agent常见测评基准概述

每周AI论文速递（240729-240802）

可配置AI智能体CUGA：企业工作流自动化新尝试

Agentic上下文工程真能杀死LLM微调？

Android 混淆（我的模板）

每周AI论文速递（251006-251010）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐