腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(85)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Rllib
中PPO的策略网络
我想在
Rllib
中设置"actor_hiddens“,也就是PPO策略网络的隐藏层,并能够设置它们的权重。这个是可能的吗?如果是,请告诉我是怎么做的?我知道如何在
Rllib
中为DDPG这样做,但是PPO的问题是我找不到策略网络。谢谢。
浏览 81
提问于2021-01-10
得票数 0
回答已采纳
2
回答
安装射线后找不到
rllib
命令
我想试试这个命令:但是
rllib
是找不到的,我可以通过在
rllib
源代码中直接执行train.py来实现这一点,但是使用命令运行肯定更优雅下面是我安装ray的命令:我尝试在/没有虚拟环境的情况下安装它,两者都失败了。
浏览 0
修改于2020-12-26
得票数 0
1
回答
如何设置
rllib
多代理PPO?
我设置了一个非常简单的多代理环境,以便与ray.
rllib
配合使用,并且我正在尝试运行PPO与随机策略培训场景的简单基准测试,如下所示: File "/home/me/anaconda3/envs/dorsa/lib/python3.7/site-packages/ray/
rllib
self.config,
浏览 20
提问于2020-04-10
得票数 1
1
回答
如何在
rllib
中输入图像
上次我看到库
rllib
:。它有令人惊奇的强化学习功能,但不幸的是,我无法找到一种方法来输入图像作为一个观察,而不平坦(我基本上想使用卷积神经网络)。有没有任何方法可以使用
rllib
库在模型中输入图像观察?
浏览 7
提问于2022-09-08
得票数 0
1
回答
RLlib
-在mac m1上安装
我使用anaconda在我的m1 pro膝上运行
rllib
。使用以下说明:conda activate
rllib
pip installtorch 然而,我得到的模块射线是找不到的(“No module named 'ray.
rllib
'; 'ray' is not a package”)。pip列表-> in
浏览 6
提问于2022-04-13
得票数 0
回答已采纳
2
回答
用自定义仿真器使用Ray
RLlib
我对Ray
RLlib
非常陌生,在使用我的团队制作的自定义模拟器时遇到了问题。我们正在尝试将一个基于Python的自定义模拟器集成到Ray
RLlib
中,以完成单个代理的DQN培训。但是,我不确定如何将模拟器作为一个环境集成到
RLlib
中。外部环境:然而,下面的图像和
RLlib
文档给我带来了更多的困惑,因为这意味着可以在
RLlib
控制之外独立运行的外部模拟器应该通过ExternalEnv类使用。
浏览 0
提问于2020-12-17
得票数 1
回答已采纳
1
回答
rllib
DQN实现中的Atari评分与奖励
我试着用
RLLib
复制突破的DQN分数。5米台阶后,平均奖励为2.0,而使用DQN的已知突破得分为100+。我想知道这是否是因为奖励剪辑,因此实际奖励不符合Atari的分数。
RLLib
的情况也是这样吗?在训练过程中有什么方法可以看到实际的平均分数吗?
浏览 10
提问于2019-11-03
得票数 2
1
回答
雷的
RLlib
是如何利用LazyFrames的?
我正在尝试找出
RLLib
如何有效地利用帧,即它如何避免将重复的帧保存到内存中,这在OpenAI基线中是通过LazyFrames完成的。在Ray的
RLLib
atari_wrapper.py中,似乎所有的观测值都以普通的ndarray格式存储:这样做是因为PyArrow即使是这样,假设
RLLib
中的_get_ob输出是4个观测值的串联数字数组,那么内存需求不是比分别保存4个观测值并通过射线对象in链接它们要高得多吗?这里我漏掉了什么?
浏览 12
提问于2019-07-18
得票数 0
回答已采纳
1
回答
rllib
中的复杂动作掩码
在
rllib
示例中提供了一个参数/可变长度的动作模型。该示例假设输出为单个分类操作dist的逻辑。如何用更复杂的输出来完成这项工作?假设我们的obs空间有两个部分。第一个约束是内嵌的。无效动作可以在没有观察空间的情况下确定。
浏览 1
提问于2021-02-28
得票数 1
2
回答
rllib
使用自定义注册环境。
Rllib
文档提供了一些关于如何的信息。有一些关于注册该环境的信息,但我想它需要与不同的工作方式。include gym_corridor 对于注册
rllib
的环境,我还不清楚是否有同样的方法。
浏览 15
提问于2019-10-25
得票数 6
回答已采纳
1
回答
RLlib
`rollout.py`用于评估吗?
TL;DR:
RLlib
的rollout命令似乎是在训练网络,而不是评估。 我正在尝试使用Ray
RLlib
的DQN在定制的模拟器上训练、保存和评估神经网络。然后,我使用
rllib
rollout命令在CartPol-V0中测试了1000集的网络。在前135集中,episode_reward_mean评分很糟糕,从10到200。因此,
rllib
rollout似乎是在训练网络,而不是评估。我知道情况并非如此,因为在rollout.py模块中没有培训代码。但我不得不说,这看起来真的像是训练。checkpoint_at_end
浏览 4
修改于2021-01-19
得票数 0
2
回答
改变射线
RLlib
训练的日志而不是~/ Ray结果
我使用Ray &
RLlib
在Ubuntu系统上训练RL代理。Tensorboard用于监视培训进度,方法是将其指向~/ray_results,其中存储所有运行的所有日志文件。雷·特恩没有被使用。例如,在启动新的Ray/
RLlib
培训运行时,将在要可视化培训进度,我们需要启动Tensorboard问题:是否可
浏览 5
修改于2020-06-07
得票数 11
1
回答
理解
RLLIB
中PPO的张板图
我是深RL的初学者,我想用PPO算法在
RLLIB
中训练我自己的健身环境。但是,我在查看我的超参数设置是否成功时遇到了一些困难。
浏览 5
提问于2020-03-13
得票数 0
1
回答
rllib
-从检查点获取TensorFlow或PyTorch模型输出
我想在不同的代码中使用经过
rllib
训练的策略模型,在那里我需要跟踪为特定输入状态生成的操作。使用标准的TensorFlow或PyTorch (首选)网络模型可以提供这种灵活性,但我找不到关于如何从经过训练的
rllib
代理生成可用的dat或H5文件的明确文档,然后我可以将其加载到torch或tf
浏览 38
提问于2020-08-23
得票数 1
1
回答
在培训期间,我们如何在
RLlib
中打印动作分布?
=Charlies-MBP.fios-router.home) raise e File "/Users/charliehou/anaconda3/lib/python3.6/site-packages/ray
浏览 12
修改于2020-04-26
得票数 2
2
回答
RLLib
模型中传递自定义模型参数的正确方法?
我有一个基本的自定义模型,它本质上只是默认的
RLLib
完全连接模型()的复制粘贴,并且我通过一个配置文件传递自定义模型参数,其中包含一个"custom_model_config": {}字典。此配置文件如下所示:custom_model: test_model custom_model_config: # L2 regularization value for fully connected layers "l2_r
浏览 21
提问于2020-07-13
得票数 1
1
回答
打印
rllib
模型的模型摘要
我还没有在文档中看到任何允许我在keras中打印像print(model.summary())这样的模型快速摘要的东西。我试过用tf-slim和slim.model_analyzer.analyze_vars(variables, print_info=True)有没有一种现有的
浏览 5
提问于2022-01-04
得票数 0
回答已采纳
1
回答
Rllib
OfflineData制备SAC的研究
我有一些离线经验:(s,a,r,s'),它们是由启发式生成的。我想在培训SAC代理时使用这些工具。在使用时,使用示例SAC准备数据时会出现错误。这是一个,其中的问题暴露在pendulum V0环境中。我从错误消息中了解到,SAC需要一些“权重”(有时是“不”?!)除了作为离线数据生成的体验之外。我能否仅使用SAC的离线体验(s,a,r,s')?
浏览 2
提问于2021-01-18
得票数 1
1
回答
流程-项目教程04 visualizer_
rllib
.py错误
/flow/visualize/visualizer_
rllib
.py data/trained_ring 200 --horizon 2000File "/Users/mac/anaconda3
浏览 19
修改于2020-02-21
得票数 0
1
回答
rllib
中的"num_envs_per_worker“是做什么的?
您可以将{"num_envs_per_worker":M}配置为让
RLlib
为每个工作人员创建M并发环境。
RLlib
通过VectorEnv.wrap()自动矢量化健身房环境。 Src:
浏览 6
提问于2020-03-03
得票数 2
第 2 页
第 3 页
第 4 页
第 5 页
点击加载更多
领券