为了基本的学习算法,我定义了一个自定义环境。现在,对于稳定基线的标准示例,学习似乎总是由稳定基线自动启动(通过稳定基线、选择随机行为、自己和评估奖励)。标准的学习似乎是这样做的:
model.learn(total_timesteps=10000)
这将尝试不同的行动,并优化行动-观察-关系,同时学习。
我想尝试一种非常基本的方法:对于我的定制环境,我将尝试生成示例列表,这些操作应该根据一些相关的情况采取(因此有一个预定义的观察-行动-奖励列表)。
我想用这个列表来训练模特。
用stablebaselines3 (使用pytorch)实现这一功能的最合适方法是什么?
补充信息:也许问题的意义可以与atari游戏中的想法相比较,不要总是同时训练整个游戏序列(从游戏开始到结束,然后再重新启动直到训练结束),而只是用一些更具体、更有代表性的重要情况来训练代理。或者在国际象棋中:让一个代理人随机选择自己选择的或随机选择的动作,或者让他跟随大师在特别有趣的情况下所做的动作,这似乎是一个巨大的不同。
也许可以把清单作为环境反应的主要部分(例如,用环境1训练1,例如1000步,然后用环境2训练1000步等等)。这可能是个解决办法。
但问题是,稳定的基线将选择自己的行动,这样它就无法学习完整的“正确”序列,或类似于国际象棋中精心挑选的步骤的顺序。
因此,实际的问题是:在训练/学习过程中,是否有可能带来稳定的基线来训练预定义的行为而不是自己选择的行动?
https://stackoverflow.com/questions/72656770
复制相似问题