文章/答案/技术大牛

发布

社区首页 >问答首页 >在ray.tune中保存剧集奖励

问在ray.tune中保存剧集奖励
EN

Stack Overflow用户

提问于 2020-11-14 20:15:45

回答 3查看 197关注 0票数 2

我正在使用rllib/ray在多代理环境中使用PPO算法训练几个代理。我使用ray.tune()命令训练代理，然后从~/ray_results加载训练数据。此数据包含代理在每个训练场景中选择的操作，但我还需要相应的代理奖励。我已经看过文档了，但似乎没有允许保存剧集奖励的配置参数。有谁有解决这个问题的办法吗？

python

reinforcement-learning

ray

rllib

ray-tune

回答 3

Stack Overflow用户

发布于 2021-07-12 17:13:06

您需要将这些值添加到info dict中，然后它将通过ray tune收集。

票数 1

Stack Overflow用户

发布于 2021-07-02 06:00:26

你查过progress.csv和result.json了吗？每一集每个代理的奖励细节都可以在那里找到。

票数 0

Stack Overflow用户

发布于 2021-07-02 16:35:40

事件奖励result.json默认情况下是每集所有座席奖励的平均值之和，策略奖励将是分配给该策略的所有座席奖励的平均值。两个座席的示例：

"hist_stats": {
    "episode_reward": [527.0, 399.0, 165.0, 8.0, 268.0, 138.0, 154.0, 846.0],
    "episode_lengths": [50, 50, 50, 50, 50, 50, 50, 50],
    "policy_0_reward": [0.0, 0.0, 0.0, 8.0, 240.0, 138.0, 0.0, 0.0],
    "policy_1_reward": [527.0, 399.0, 165.0, 0.0, 28.0, 0.0, 154.0, 846.0]
},

但是，您可以在metrics.py中相应地更改summarize_episodes函数

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64833781

复制

相似问题

问在ray.tune中保存剧集奖励
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在ray.tune中保存剧集奖励EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在ray.tune中保存剧集奖励
EN