文章/答案/技术大牛

发布

社区首页 >问答首页 >用实例训练稳定基线3？

问用实例训练稳定基线3？
EN

Stack Overflow用户

提问于 2022-06-17 08:56:06

回答 1查看 307关注 0票数 1

为了基本的学习算法，我定义了一个自定义环境。现在，对于稳定基线的标准示例，学习似乎总是由稳定基线自动启动(通过稳定基线、选择随机行为、自己和评估奖励)。标准的学习似乎是这样做的：

model.learn(total_timesteps=10000)

这将尝试不同的行动，并优化行动-观察-关系，同时学习。

我想尝试一种非常基本的方法:对于我的定制环境，我将尝试生成示例列表，这些操作应该根据一些相关的情况采取(因此有一个预定义的观察-行动-奖励列表)。

我想用这个列表来训练模特。

用stablebaselines3 (使用pytorch)实现这一功能的最合适方法是什么？

补充信息:也许问题的意义可以与atari游戏中的想法相比较，不要总是同时训练整个游戏序列(从游戏开始到结束，然后再重新启动直到训练结束)，而只是用一些更具体、更有代表性的重要情况来训练代理。或者在国际象棋中:让一个代理人随机选择自己选择的或随机选择的动作，或者让他跟随大师在特别有趣的情况下所做的动作，这似乎是一个巨大的不同。

也许可以把清单作为环境反应的主要部分(例如，用环境1训练1，例如1000步，然后用环境2训练1000步等等)。这可能是个解决办法。

但问题是，稳定的基线将选择自己的行动，这样它就无法学习完整的“正确”序列，或类似于国际象棋中精心挑选的步骤的顺序。

因此，实际的问题是:在训练/学习过程中，是否有可能带来稳定的基线来训练预定义的行为而不是自己选择的行动？

pytorch

reinforcement-learning

stable-baselines

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-06-17 15:01:09

模仿学习本质上就是你要寻找的东西。有一个位于基线之上的仿制库，您可以使用它来实现这一点。

有关如何创建模拟专家行为以训练网络的策略，请参见此示例。本例中的行为来自一组操作序列或推出。在这个示例中，推出来自经过专业培训的策略，但是您可能可以创建一个手写的策略。关于如何创建一个部署，请参见这。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72656770

复制

相似问题

问用实例训练稳定基线3？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用实例训练稳定基线3？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用实例训练稳定基线3？
EN