首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 企业级AI的未来:通用型企业级 AI 智能体的重大突破

    如今,IBM CUGA不仅在模拟企业场景中经受住了严苛测试,更在最新(2025年7月)的AppWorld Benchmark中荣登第一(注:AppWorld Benchmark 是一个由多个研究机构和学者共同创建 真正的"企业AI助手" 正在加速来到除了在AppWorld基准测试夺魁,IBM CUGA还在WebArena等真实浏览器任务中展现强大能力。

    24010编辑于 2025-07-21
  • 来自专栏DeepHub IMBA

    斯坦福ACE框架:让AI自己学会写prompt,性能提升17%成本降87%

    论文在AppWorld benchmark上做了个实验来观察这个现象。当LLM被要求在每个适应步骤完全重写累积的上下文时,上下文会发生崩溃。 AppWorld上遵循benchmark作者发布的官方ReAct实现,所有其他baseline和方法都基于这个框架构建。 Agent benchmark结果 表1显示,ACE在AppWorld benchmark上一致性地改进强baseline。 消融研究 表3报告AppWorld benchmark上的消融研究,分析ACE的各个设计选择如何促成有效上下文适应。 举例来说,AppWorld离线适应上,ACE相比GEPA达到82.3%适应延迟减少和75.1% rollout数量减少(表4a)。

    42010编辑于 2025-11-15
  • AI产品/技术经理必读:智能体上下文工程ACE如何解决LLM的“知识丢失”难题,构建可信赖系统

    智能体性能的跨越式提升在AppWorld智能体基准测试中,ACE展现出卓越的自我提升能力。 最具有市场价值的发现是:ACE框架使得一个较小的开源模型DeepSeek-V3.1,在AppWorld总平均分上(59.4%)能够匹配甚至在更难的测试-挑战(Test-Challenge)子集上超越基于 推理效率与成本结构的优化ACE通过增量式增量更新机制,避免了昂贵的整体重写,极大地降低了适应延迟和计算成本:适应延迟: 在AppWorld离线适应中,ACE相比GEPA,适应延迟降低了82.3%,Rollout

    58810编辑于 2025-11-08
  • 来自专栏星河细雨

    Agent常见测评基准概述

    AppWorld 专门用来评测交互式编码 Agent 在"多应用 + 多用户"的复杂数字环境中的能力。 环境规模:基于 AppWorld Engine 搭建,包含 9 个日常应用(如笔记、消息、购物等),通过 457 个 API 暴露操作接口,并模拟了约 100 个虚拟用户的日常数字行为。 任务设计:AppWorld Benchmark 提供约 750 个任务,这些任务要求 Agent 不是简单顺序调用 API,而是生成包含复杂控制流的代码,跨应用协调完成如"整理事项、发消息、比价下单"这类真实工作流 AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents - https:

    1.4K10编辑于 2025-12-24
  • 每周AI论文速递(240729-240802)

    AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents AppWorld 为填补这一空白,我们开发了 AppWorld Engine,这是一个包含 9 个日常应用、可通过 457 个 API 操作的高质量执行环境(60K 行代码),并模拟了约 100 名虚构用户的真实数字活动 接着,我们创建了 AppWorld Benchmark(40K 行代码),包含 750 个自然、多样且具有挑战性的自主智能体任务,这些任务需要丰富的交互式代码生成。 这凸显了该基准的难度以及 AppWorld 推动交互式编码智能体发展的潜力。项目网站位于 https://appworld.dev/。

    37600编辑于 2025-04-08
  • 可配置AI智能体CUGA:企业工作流自动化新尝试

    其研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别以61.7%的成功率完成网络任务,以及48.2%的场景完成率来评估API任务——并指出,虽然这些分数足以让一名人类员工被解雇

    12410编辑于 2025-12-31
  • Agentic上下文工程真能杀死LLM微调?

    AppWorld基准测试中,ACE的表现堪称惊艳:无需任何标注数据,仅凭执行反馈就能让开源小模型性能提升17.1%,直接逼近顶级商用系统的水准。

    13710编辑于 2026-02-02
  • 来自专栏胖虎的研发之路

    Android 混淆(我的模板)

    -------------------1.实体类--------------------------------- -keep class com.gieseckedevrient.convego.appworld.prod.bean

    86020编辑于 2023-05-10
  • 每周AI论文速递(251006-251010)

    AppWorld 排行榜中,尽管采用规模较小的开源模型,ACE 在整体平均指标上追平排名最高的生产级智能体,并在难度更高的测试挑战集上实现反超。

    39810编辑于 2025-11-20
领券