搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏新智元
小模型的意见也有用！GPT-4+AutoGPT在线决策：买东西再也不用纠结了
suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’ Webshop 实验设置： Webshop是一个模拟网购环境，从http://Amazon.com上抓取超过118万个产品。实验结果直接比较结果本研究主要通过运行Webshop和ALFWorld两种实验，比较了不同的大型语言模型（Large Language Models，LLMs）和模仿学习（Imitation Learning 首先，Webshop试验中，GPT4表现出色，其性能超过了其他IL模型。尽管无图像输入的原始IL模型仅取得了适度的成功率，但是加入了图像输入的IL模型表现更好。
53320编辑于 2023-08-05
来自专栏深度学习自然语言处理
每日论文速递 | ReAct Meets ActRe: Agent规划自主解释
在 WebShop 中，A ^3 T 代理的单次成功率达到了人类的平均水平，经过 4 轮迭代改进后，其成功率接近人类专家。 WebShop实验：使用WebShop作为在线购物环境，代理需要根据给定的指令购买最合适的商品。实验使用了11,587个任务中的2,300个进行训练和验证。报告了在WebShop上的单次尝试和迭代精炼设置下的平均奖励和成功率。对比自训练的效果：在AlfWorld和WebShop环境中，展示了经过多轮迭代后，代理在任务中的成功率和轨迹质量的提升。案例研究：展示了在WebShop环境中，A3T框架如何通过ActRe辅助合成轨迹，并与未辅助的失败轨迹进行比较。实验验证：在AlfWorld和WebShop两个环境中进行实验，验证了A3T框架的有效性。与多个强基线模型进行比较，展示了A3T在单次尝试和迭代精炼后的成功率。
75510编辑于 2024-04-11
来自专栏机器之心
智能体的「一方有难八方支援」，一种分布式AI计算新范式诞生了
在决策制定网页导航环境和知识推理任务环境中进行广泛实验，报告了最终稀疏奖励和中间召回方面的性能，这为 LAA 及其兼容的 LLM 的最优选择提供了定性指示；结果显示，与其他 LAA 架构相比，BOLAA 在 WebShop 实验结果研究者从两个环境中构建了评估基准，WebShop 和 HotPotQA 以及维基百科 API 的用例。关于评估指标，研究者使用每个环境中的奖励得分来评估 LAA 性能。在 WebShop 环境中，奖励被定义为购买商品与 ground-truth 商品之间的属性重叠率。此外，研究者为 WebShop 环境开发了召回性能，如果在一个任务会话中检索到 ground-truth 项目，召回性能定义为 1；如果没有检索到地面实况项目，召回性能定义为 0。召回率以 WebShop 环境中所有任务的平均召回分数来报告。决策模拟研究者比较了 WebShop 环境中 LAA 的决策性能。下表 1 列出了平均奖励方面的表现。
38520编辑于 2023-09-08
来自专栏DeepHub IMBA
LUMOS：基于开源LLM的可训练的代理框架
在跨四种训练任务类型的组合注释上训练时，评估LUMOS在未见任务上的性能；WebShop[9]和InterCodeSQL[10]等看不见的任务上测试泛化能力。在平均奖励上优于WebShop[9]，在成功率上优于InterCodeSQL[10]。总结 LUMOS在9个数据集上的表现优于各种开源代理。它在QA和web任务上的表现甚至比GPT代理更好。 Webshop: Towards scalable real-world web interaction with grounded language agents.by Yao et al. in
76810编辑于 2024-04-15
来自专栏DrugOne
NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型
在三个复杂的真实世界模拟数据集（ALFWorld、WebShop、ScienceWorld）和三种SOTA开源模型（Mistral-7B、Gemma-7B和Llama-3-8B）上的实验结果表明，世界知识模型增强的智能体可以实现更好的性能三、主要实验 WKM在不同模型和数据集上相对于各种baseline都有相对更好的表现，特别是在ALFWorld和WebShop上能够超过GPT-4。
51010编辑于 2024-11-23
来自专栏自然语言处理(NLP)论文速递
Amazon | 深入研究LLMs与AutoGPT的结合：揭示出GPT-4惊人的人类决策能力！
测试任务&基线模型「Webshop」：它是一个模拟网购环境，该环境从亚马逊电商平台抓取超过118万个产品，并提供了如搜索、点击、导航、购买等真实客户操作。在Webshop试验中，如下图所示。GPT4表现出色，其性能超过了其他IL模型。尽管无图像输入的原始IL模型仅取得了适度的成功率，但是加入了图像输入的IL模型表现更好。
60630编辑于 2023-09-14
来自专栏方亮
Opentelemetry——Observability Primer
attributes: 下表包含Span属性的示例： Key Value http.request.method “GET” network.protocol.version “1.1” url.path “/webshop s=1” server.address “example.com” server.port 8080 url.scheme “https” http.route “/webshop/articles/:
31400编辑于 2024-05-24
来自专栏自然语言处理(NLP)论文速递
华为诺亚 | 发布盘古智能体框架：Pangu-Agent，让Agent学会结构化推理
盘古 Agent 兼容一系列任务，例如 ALFWorld、GSM8K、HotpotQA、WebShop 等。它的交互界面与 OpenAI Gym 类似，是一种开放式设计。在 WebShop 等涉及相对较大观测值的任务中，提示的长度需要截断，以保持在允许的上下文长度范围内。这也解释了为什么 Reflect 方法在 WebShop 中的表现往往不如其他方法。在某些情况下，FS-CoT-SC 可以提高 LLM 的收益，尤其是在 GSM8K 中。
1.6K10编辑于 2023-12-28
来自专栏AgenticAI
万字长文深度解析LLM Agent反思工作流框架Reflexion上篇：安装与运行
webshop_runs，Webshop 数据集是一个用于电子商务相关研究的数据集，通常包含有关在线商店的信息，例如产品信息、用户行为、购买历史等。
53810编辑于 2025-03-18
来自专栏新智元
玩转「智能体魔方」！清华推出AgentSquare模块化搜索框架，开启AI智能体高速进化时代
图7 Webshop任务中各智能体性能与API成本的关系此外，研究团队对搜索过程进行了详细分析，发现其他方法很快遇到性能瓶颈，而AgentSquare表现出更高效的搜索路径和更低的评测成本。图8 AgentSquare在Alfworld和Webshop任务中的搜索轨迹目前，AgentSquare在各项任务中生成的新模块均已开源，方便后续研究者复用和优化。
48610编辑于 2025-02-14
来自专栏LCHub低代码社区
清华团队领衔打造，首个AI agent大模型基准测试网站问世AgentBench
在此次工作中，研究团队在操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）和网页浏览（Mind2Web）8
2.6K20编辑于 2023-08-14
来自专栏喔家ArchiSelf
Agent 应用于提示工程
决策任务测试ReAct 的两个决策任务是 ALFWorld 和 WebShop。 ALFWorld 是一个基于文本的游戏，具有真实的环境。 WebShop 是一个模拟在线购物网站，数据来自亚马逊。这是一个具有挑战性的领域，因为它有大量的行动导航网站和搜索产品。目标是找到一个符合用户规范的项目。
91920编辑于 2023-10-30
来自专栏机器之心
重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练
WebShop（网页购物）：在模拟真实购物任务中，训练和验证集上的成功率从 37% 大幅提升至超过 85%。在 WebShop 环境上的准确度趋势。 ROLL 仍在进化 ROLL 已在 GitHub 上线，并在短时间内收获大量 star。
87610编辑于 2025-06-26
来自专栏机器之心
能总结经验、持续进化，上交把智能体优化参数的成本打下来了
结果该工作在 WebShop 与 WikiHow 两个任务集上测试了所提出的「忆者」智能体。
37411编辑于 2023-11-24
来自专栏新智元
CMU博士让智能体在真实世界竞技！GPT-4夺冠，但成功率只有一成
例如，WebShop 是一个包含数百万种产品的购物网站环境，代理需要在其中阅读网页、键入查询和单击按钮，才能像人类一样购物。
52240编辑于 2023-09-09
来自专栏技术人生黄勇
更胜ReACT一筹，让大模型在解决问题中学会“触类旁通”的开创性的经验学习ExpeL策略ExpeL
04 — 评估评估部分基于四个基准测试设计了实验，包括HotpotQA、ALF-World、WebShop和FEVER。 HotpotQA、ALF-World、WebShop 是大模型的评估老朋友了，常看文章的朋友可能熟悉这三个评测测试集。‍
56810编辑于 2024-07-19
来自专栏机器之心
挑战ReAct！MetaGPT团队提出ReCode智能体新范式
在 WebShop 环境中，也比最佳基线 ADaPT 提升了 21.9%。平均而言，ReCode 的表现比最佳基线高出 10.5 个百分点，相对提升达到 20.9%。
23710编辑于 2025-12-24
来自专栏自然语言处理(NLP)论文速递
复旦 | 推出通用大模型Agent平台：AgentGym，提供一条龙服务！
例如，WebShop 环境，一个用于网络购物任务的交互式平台，仅通过一行命令，即可轻松完成部署。
76410编辑于 2024-06-19
来自专栏技术人生黄勇
REACT：在语言模型中协同推理与行动，使其能够解决各种语言推理和决策任务。
在ALFWorld和WebShop数据集上，相比模仿和强化学习等方法，论文作者团队的方法分别取得了34%和10%的性能提升，而且仅需1到2个上下文示例。
1.1K10编辑于 2024-07-19
来自专栏机器之心
在WAIC耳朵听出茧子的「智能体」，是时候系统学一下了
决策制定：将 ReAct 应用于交互式（基于语言的）决策任务；例如，ALFWorld 用于模拟导航，WebShop 用于完成自主购物任务。此外，对于 WebShop 数据集，ReAct 智能体提供了更多种类的工具和行动选项；例如，搜索、筛选、选择产品、选择产品属性、购买产品等。
36710编辑于 2025-08-06

第 2 页

小模型的意见也有用！GPT-4+AutoGPT在线决策：买东西再也不用纠结了

每日论文速递 | ReAct Meets ActRe: Agent规划自主解释

智能体的「一方有难八方支援」，一种分布式AI计算新范式诞生了

LUMOS：基于开源LLM的可训练的代理框架

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Amazon | 深入研究LLMs与AutoGPT的结合：揭示出GPT-4惊人的人类决策能力！

Opentelemetry——Observability Primer

华为诺亚 | 发布盘古智能体框架：Pangu-Agent，让Agent学会结构化推理

万字长文深度解析LLM Agent反思工作流框架Reflexion上篇：安装与运行

玩转「智能体魔方」！清华推出AgentSquare模块化搜索框架，开启AI智能体高速进化时代

清华团队领衔打造，首个AI agent大模型基准测试网站问世AgentBench

Agent 应用于提示工程

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

能总结经验、持续进化，上交把智能体优化参数的成本打下来了

CMU博士让智能体在真实世界竞技！GPT-4夺冠，但成功率只有一成

更胜ReACT一筹，让大模型在解决问题中学会“触类旁通”的开创性的经验学习ExpeL策略ExpeL

挑战ReAct！MetaGPT团队提出ReCode智能体新范式

复旦 | 推出通用大模型Agent平台：AgentGym，提供一条龙服务！

REACT：在语言模型中协同推理与行动，使其能够解决各种语言推理和决策任务。

在WAIC耳朵听出茧子的「智能体」，是时候系统学一下了

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐