首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在ray.tune中保存剧集奖励

在ray.tune中保存剧集奖励
EN

Stack Overflow用户
提问于 2020-11-14 20:15:45
回答 3查看 197关注 0票数 2

我正在使用rllib/ray在多代理环境中使用PPO算法训练几个代理。我使用ray.tune()命令训练代理,然后从~/ray_results加载训练数据。此数据包含代理在每个训练场景中选择的操作,但我还需要相应的代理奖励。我已经看过文档了,但似乎没有允许保存剧集奖励的配置参数。有谁有解决这个问题的办法吗?

EN

回答 3

Stack Overflow用户

发布于 2021-07-12 17:13:06

您需要将这些值添加到info dict中,然后它将通过ray tune收集。

票数 1
EN

Stack Overflow用户

发布于 2021-07-02 06:00:26

你查过progress.csvresult.json了吗?每一集每个代理的奖励细节都可以在那里找到。

票数 0
EN

Stack Overflow用户

发布于 2021-07-02 16:35:40

事件奖励result.json默认情况下是每集所有座席奖励的平均值之和,策略奖励将是分配给该策略的所有座席奖励的平均值。两个座席的示例:

代码语言:javascript
复制
"hist_stats": {
    "episode_reward": [527.0, 399.0, 165.0, 8.0, 268.0, 138.0, 154.0, 846.0],
    "episode_lengths": [50, 50, 50, 50, 50, 50, 50, 50],
    "policy_0_reward": [0.0, 0.0, 0.0, 8.0, 240.0, 138.0, 0.0, 0.0],
    "policy_1_reward": [527.0, 399.0, 165.0, 0.0, 28.0, 0.0, 154.0, 846.0]
},

但是,您可以在metrics.py中相应地更改summarize_episodes函数

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64833781

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档