首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏新智元

    小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了

    suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’ Webshop 实验设置: Webshop是一个模拟网购环境,从http://Amazon.com上抓取超过118万个产品。 实验结果 直接比较结果 本研究主要通过运行Webshop和ALFWorld两种实验,比较了不同的大型语言模型(Large Language Models,LLMs)和模仿学习(Imitation Learning 首先,Webshop试验中,GPT4表现出色,其性能超过了其他IL模型。尽管无图像输入的原始IL模型仅取得了适度的成功率,但是加入了图像输入的IL模型表现更好。

    53320编辑于 2023-08-05
  • 来自专栏深度学习自然语言处理

    每日论文速递 | ReAct Meets ActRe: Agent规划自主解释

    WebShop 中,A ^3 T 代理的单次成功率达到了人类的平均水平,经过 4 轮迭代改进后,其成功率接近人类专家。 WebShop实验: 使用WebShop作为在线购物环境,代理需要根据给定的指令购买最合适的商品。 实验使用了11,587个任务中的2,300个进行训练和验证。 报告了在WebShop上的单次尝试和迭代精炼设置下的平均奖励和成功率。 对比自训练的效果: 在AlfWorld和WebShop环境中,展示了经过多轮迭代后,代理在任务中的成功率和轨迹质量的提升。 案例研究: 展示了在WebShop环境中,A3T框架如何通过ActRe辅助合成轨迹,并与未辅助的失败轨迹进行比较。 实验验证: 在AlfWorld和WebShop两个环境中进行实验,验证了A3T框架的有效性。 与多个强基线模型进行比较,展示了A3T在单次尝试和迭代精炼后的成功率。

    75510编辑于 2024-04-11
  • 来自专栏机器之心

    智能体的「一方有难八方支援」,一种分布式AI计算新范式诞生了

    在决策制定网页导航环境和知识推理任务环境中进行广泛实验,报告了最终稀疏奖励和中间召回方面的性能,这为 LAA 及其兼容的 LLM 的最优选择提供了定性指示; 结果显示,与其他 LAA 架构相比,BOLAA 在 WebShop 实验结果 研究者从两个环境中构建了评估基准,WebShop 和 HotPotQA 以及维基百科 API 的用例。 关于评估指标,研究者使用每个环境中的奖励得分来评估 LAA 性能。 在 WebShop 环境中,奖励被定义为购买商品与 ground-truth 商品之间的属性重叠率。 此外,研究者为 WebShop 环境开发了召回性能,如果在一个任务会话中检索到 ground-truth 项目,召回性能定义为 1;如果没有检索到地面实况项目,召回性能定义为 0。 召回率以 WebShop 环境中所有任务的平均召回分数来报告。 决策模拟 研究者比较了 WebShop 环境中 LAA 的决策性能。下表 1 列出了平均奖励方面的表现。

    38520编辑于 2023-09-08
  • 来自专栏DeepHub IMBA

    LUMOS:基于开源LLM的可训练的代理框架

    在跨四种训练任务类型的组合注释上训练时,评估LUMOS在未见任务上的性能;WebShop[9]和InterCodeSQL[10]等看不见的任务上测试泛化能力。 在平均奖励上优于WebShop[9],在成功率上优于InterCodeSQL[10]。 总结 LUMOS在9个数据集上的表现优于各种开源代理。它在QA和web任务上的表现甚至比GPT代理更好。 Webshop: Towards scalable real-world web interaction with grounded language agents.by Yao et al. in

    76810编辑于 2024-04-15
  • 来自专栏DrugOne

    NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

    在三个复杂的真实世界模拟数据集(ALFWorld、WebShop、ScienceWorld)和三种SOTA开源模型(Mistral-7B、Gemma-7B和Llama-3-8B)上的实验结果表明,世界知识模型增强的智能体可以实现更好的性能 三、主要实验 WKM在不同模型和数据集上相对于各种baseline都有相对更好的表现,特别是在ALFWorld和WebShop上能够超过GPT-4。

    51010编辑于 2024-11-23
  • 来自专栏自然语言处理(NLP)论文速递

    Amazon | 深入研究LLMs与AutoGPT的结合:揭示出GPT-4惊人的人类决策能力!

    测试任务&基线模型 「Webshop」:它是一个模拟网购环境,该环境从亚马逊电商平台抓取超过118万个产品,并提供了如搜索、点击、导航、购买等真实客户操作。 在Webshop试验中,如下图所示。GPT4表现出色,其性能超过了其他IL模型。尽管无图像输入的原始IL模型仅取得了适度的成功率,但是加入了图像输入的IL模型表现更好。

    60630编辑于 2023-09-14
  • 来自专栏方亮

    Opentelemetry——Observability Primer

    attributes: 下表包含Span属性的示例: Key Value http.request.method “GET” network.protocol.version “1.1” url.path “/webshop s=1” server.address “example.com” server.port 8080 url.scheme “https” http.route “/webshop/articles/:

    31400编辑于 2024-05-24
  • 来自专栏自然语言处理(NLP)论文速递

    华为诺亚 | 发布盘古智能体框架:Pangu-Agent,让Agent学会结构化推理

    盘古 Agent 兼容一系列任务,例如 ALFWorld、GSM8K、HotpotQA、WebShop 等。它的交互界面与 OpenAI Gym 类似,是一种开放式设计。 在 WebShop 等涉及相对较大观测值的任务中,提示的长度需要截断,以保持在允许的上下文长度范围内。 这也解释了为什么 Reflect 方法在 WebShop 中的表现往往不如其他方法。 在某些情况下,FS-CoT-SC 可以提高 LLM 的收益,尤其是在 GSM8K 中。

    1.6K10编辑于 2023-12-28
  • 来自专栏AgenticAI

    万字长文深度解析LLM Agent反思工作流框架Reflexion上篇:安装与运行

    webshop_runs,Webshop 数据集是一个用于电子商务相关研究的数据集,通常包含有关在线商店的信息,例如产品信息、用户行为、购买历史等。

    53810编辑于 2025-03-18
  • 来自专栏新智元

    玩转「智能体魔方」!清华推出AgentSquare模块化搜索框架,开启AI智能体高速进化时代

    图7 Webshop任务中各智能体性能与API成本的关系 此外,研究团队对搜索过程进行了详细分析,发现其他方法很快遇到性能瓶颈,而AgentSquare表现出更高效的搜索路径和更低的评测成本。 图8 AgentSquare在Alfworld和Webshop任务中的搜索轨迹 目前,AgentSquare在各项任务中生成的新模块均已开源,方便后续研究者复用和优化。

    48610编辑于 2025-02-14
  • 来自专栏LCHub低代码社区

    清华团队领衔打造,首个AI agent大模型基准测试网站问世AgentBench

    在此次工作中,研究团队在操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)和网页浏览(Mind2Web)8

    2.6K20编辑于 2023-08-14
  • 来自专栏喔家ArchiSelf

    Agent 应用于提示工程

    决策任务 测试ReAct 的两个决策任务是 ALFWorld 和 WebShop。 ALFWorld 是一个基于文本的游戏,具有真实的环境。 WebShop 是一个模拟在线购物网站,数据来自亚马逊。这是一个具有挑战性的领域,因为它有大量的行动导航网站和搜索产品。目标是找到一个符合用户规范的项目。

    91920编辑于 2023-10-30
  • 来自专栏机器之心

    重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

    WebShop(网页购物):在模拟真实购物任务中,训练和验证集上的成功率从 37% 大幅提升至超过 85%。 在 WebShop 环境上的准确度趋势。 ROLL 仍在进化 ROLL 已在 GitHub 上线,并在短时间内收获大量 star。

    87610编辑于 2025-06-26
  • 来自专栏机器之心

    能总结经验、持续进化,上交把智能体优化参数的成本打下来了

    结果 该工作在 WebShop 与 WikiHow 两个任务集上测试了所提出的 「忆者」智能体。

    37411编辑于 2023-11-24
  • 来自专栏新智元

    CMU博士让智能体在真实世界竞技!GPT-4夺冠,但成功率只有一成

    例如,WebShop 是一个包含数百万种产品的购物网站环境,代理需要在其中阅读网页、键入查询和单击按钮,才能像人类一样购物。

    52240编辑于 2023-09-09
  • 来自专栏技术人生黄勇

    更胜ReACT一筹,让大模型在解决问题中学会“触类旁通”的开创性的经验学习ExpeL策略ExpeL

    04 — 评估 评估部分基于四个基准测试设计了实验,包括HotpotQA、ALF-World、WebShop和FEVER。 HotpotQA、ALF-World、WebShop 是大模型的评估老朋友了,常看文章的朋友可能熟悉这三个评测测试集。‍

    56810编辑于 2024-07-19
  • 来自专栏机器之心

    挑战ReAct!MetaGPT团队提出ReCode智能体新范式

    WebShop 环境中,也比最佳基线 ADaPT 提升了 21.9%。平均而言,ReCode 的表现比最佳基线高出 10.5 个百分点,相对提升达到 20.9%。

    23710编辑于 2025-12-24
  • 来自专栏自然语言处理(NLP)论文速递

    复旦 | 推出通用大模型Agent平台:AgentGym,提供一条龙服务!

    例如,WebShop 环境,一个用于网络购物任务的交互式平台,仅通过一行命令,即可轻松完成部署。

    76410编辑于 2024-06-19
  • 来自专栏技术人生黄勇

    REACT:在语言模型中协同推理与行动,使其能够解决各种语言推理和决策任务。

    在ALFWorld和WebShop数据集上,相比模仿和强化学习等方法,论文作者团队的方法分别取得了34%和10%的性能提升,而且仅需1到2个上下文示例。

    1.1K10编辑于 2024-07-19
  • 来自专栏机器之心

    在WAIC耳朵听出茧子的「智能体」,是时候系统学一下了

    决策制定:将 ReAct 应用于交互式(基于语言的)决策任务;例如,ALFWorld 用于模拟导航,WebShop 用于完成自主购物任务。 此外,对于 WebShop 数据集,ReAct 智能体提供了更多种类的工具和行动选项;例如,搜索、筛选、选择产品、选择产品属性、购买产品等。

    36710编辑于 2025-08-06
领券