腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(528)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
决斗
DQN
和双
DQN
的区别?
我读过一些文章,但还是找不出决斗
DQN
和双
DQN
之间的区别吗?他们之间到底有什么区别?另外,决斗
DQN
需要建立在双
DQN
之上吗?谢谢!
浏览 0
提问于2019-05-31
得票数 3
1
回答
为什么分布的
DQN
比香草
DQN
快?
我有两个问题: What是否使它在运行时的性能比
DQN
好得多?我的理解是,在运行时,我们仍然需要选择一个具有最大期望值的操作。What是其收敛速度快于香草
DQN
?的解释,据我所知,策略没有改变,我们仍在从state $x_{t+1}$中选择最佳动作,然后使用它的最佳动作分布来引导(调整)当前状态最佳动作的分布。
浏览 0
修改于2018-07-28
得票数 2
回答已采纳
1
回答
DQN
不收敛
我正在尝试在openai-健身房的“月球着陆器”环境中实现
DQN
。 经过3000集的训练,它没有收敛的迹象。
浏览 18
提问于2022-10-10
得票数 0
1
回答
与vanilla
DQN
相比,双
DQN
的性能较差
我首先使用了一个普通的
DQN
,在那里我优化了参数。模拟机器人在5000集后达到了8000个目标,并表现出令人满意的学习性能。现在,由于
DQN
在强化学习中“不是最好的”,我添加了DoubleDQN。以下是正常的
DQN
训练部分: if done: self.model.fit(X_batch, Y_batch, batch_size=self.batc
浏览 24
提问于2019-11-01
得票数 0
1
回答
理解
DQN
算法
你可以在图片中看到它:
DQN
关于深度Q学习算法,我有几个问题。它们对第14行意味着什么:If D_i = 0, set Y_i = ...
浏览 0
提问于2021-08-12
得票数 0
回答已采纳
1
回答
双
DQN
的表现明显差于香草
DQN
我的问题是,双
DQN
的表现似乎比香草
DQN
差得多,我不知道为什么。应该表现得更好对吧?奖励函数有什么问题吗?还是我做错了什么?到目前为止,平均报酬曲线是这样的:下面是我的双
DQN
代码:REPLAY_MEMORY_SIZE = 10_000 MIN_REPLAY_MEMORY_SIZE
浏览 7
修改于2022-07-27
得票数 0
1
回答
DQN
不学习
我试图在CarPole环境中使用Pytorch实现一个
DQN
。我不知道为什么,但无论我试着训练经纪人多长时间,即使分数普遍增加,他们只是波动,没有保持高分。代码来自为tensorflow编写的
DQN
教程,该教程正常运行,但当我试图转换为Py手电时,它就学不到了。
浏览 0
提问于2020-12-21
得票数 1
1
回答
简单
DQN
慢速训练
我一直试图用本文中的
DQN
来解决OpenAI月球着陆器的游戏。 observation_space = env.observation_space.shape[0]
dqn
_solverobservation_space]) score = 0 action =
dqn
浏览 4
修改于2021-01-22
得票数 3
1
回答
DQN
损耗不收敛
我正在使用
DQN
算法在我的环境中训练一个代理,如下所示: 目标是在不撞到其他汽车的情况下以预期的速度行驶。对于
DQN
算法,Q损失必须收敛吗?我想知道,为什么大多数的论文都没有讨论q损失。
浏览 0
提问于2017-10-31
得票数 20
1
回答
与Keras决斗
DQN
我正在尝试实现Dueling
DQN
,但如果我以这种方式构建NN架构,它看起来并不是在学习 X_input = Input(shape=(self.state_size,))
浏览 27
修改于2020-06-12
得票数 1
1
回答
DQN
的迁移学习
dqn
.load_weights('checkpoint_reward_176.h5f') model.layers[1].trainable = False这是
DQN
代码。., value_min=.1, value_test=0.0,
dqn
= DQNAgent(model==processor, nb_actions=nb_actions, memory=memory, n
浏览 2
修改于2019-08-10
得票数 1
1
回答
DoubleDQN与
DQN
的性能比较
我在健身房NChain游戏上尝试了DoubleDQN和
DQN
算法,发现DoubleDQN的性能并不比
DQN
更稳定或更好。我将每次操作后训练的批量大小设置为1,我可以知道这是DoubleDQN没有优于
DQN
的原因吗?
浏览 5
提问于2019-07-05
得票数 0
2
回答
DDQN和
DQN
有什么区别?
我想我不明白
DQN
和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget网络,但我不明白在这段代码中是如何实现的。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN的实现中,这是在
DQN
的操作完成后添加的,https://github.com/keon/deep-q-learning将self.target_model.set_weights(self.model.get_weights())添加到
DQN</em
浏览 0
修改于2019-12-09
得票数 10
1
回答
真实角角rl
DQN
预测
大家好,我遵循教程来训练
DQN
代理,一切都很好states = env.observation_space.shape[0] score+=reward现在,我不想做随机的选择,我想使用
DQN
而不必去做类似
dqn
.p
浏览 13
提问于2021-12-29
得票数 0
1
回答
keras
dqn
代理需要更多维度
我已经在openAI健身房的基础上构建了一个定制环境,我的目标是在这个环境上训练一个
DQN
代理。actions): memory = SequentialMemory(limit=50000, window_length=1) nb_actions=actions, nb_steps_warmup=10, target_model_update=1e-2) return
dqn
但是,拟合代理时会
浏览 0
修改于2021-01-20
得票数 1
1
回答
DQN
不稳定预测
我用java从头开始实现了
DQN
,一切都是定制的。我把它变成了一条蛇,结果真的很好。但我有个问题。 discount factor: 0.9 steps to update target network: 300 000 (means
浏览 0
提问于2020-03-08
得票数 0
1
回答
如果
DQN
测试的奖励低于
DQN
最小化问题训练的奖励,是否可以接受?
如果我们训练一个
DQN
超过40000-60000集的500个时间步调。在过去的100步训练中,在测试过程中,奖励的平均值约为奖励的1.1倍。越多的时间步骤应该更稳定??我们的
DQN
还好吗?一个测试随机数是120!但是另一个是400! 或者反之亦然,如果最小化测试的奖励超过了最近100次训练的平均值的2倍,是否可以接受呢?我们的
DQN
还好吗?
浏览 0
修改于2018-10-14
得票数 0
7
回答
如何实现深度强化学习(
DQN
)?
、
、
DQN
(Deep Q-Learning)可谓是深度强化学习(Deep Reinforcement Learning,DRL)的开山之作,是将深度学习与强化学习结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)学习的一种全新的算法 ,该如何实现深度强化学习(
DQN
)呢?
浏览 3816
提问于2018-10-10
1
回答
在线
DQN
模式能否过关?
我是新的领域的RL,目前试图培训一个在线的
DQN
模式。一个在线模型会不会因为它一直在学习而变得过于适合?我怎么知道会不会发生这种事?
浏览 0
提问于2021-09-22
得票数 1
1
回答
定义
DQN
的输出大小
这是我的模型的缺点: super(
DQN
, self).
浏览 1
修改于2020-04-09
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券