搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

决斗DQN和双DQN的区别？

我读过一些文章，但还是找不出决斗DQN和双DQN之间的区别吗？他们之间到底有什么区别？另外，决斗DQN需要建立在双DQN之上吗？谢谢!

浏览 0提问于2019-05-31得票数 3

1回答

为什么分布的DQN比香草DQN快？

我有两个问题： What是否使它在运行时的性能比DQN好得多？我的理解是，在运行时，我们仍然需要选择一个具有最大期望值的操作。What是其收敛速度快于香草DQN?的解释，据我所知，策略没有改变，我们仍在从state $x_{t+1}$中选择最佳动作，然后使用它的最佳动作分布来引导(调整)当前状态最佳动作的分布。

浏览 0修改于2018-07-28得票数 2

回答已采纳

1回答

DQN不收敛

我正在尝试在openai-健身房的“月球着陆器”环境中实现DQN。经过3000集的训练，它没有收敛的迹象。

浏览 18提问于2022-10-10得票数 0

1回答

与vanilla DQN相比，双DQN的性能较差

我首先使用了一个普通的DQN，在那里我优化了参数。模拟机器人在5000集后达到了8000个目标，并表现出令人满意的学习性能。现在，由于DQN在强化学习中“不是最好的”，我添加了DoubleDQN。以下是正常的DQN训练部分： if done: self.model.fit(X_batch, Y_batch, batch_size=self.batc

浏览 24提问于2019-11-01得票数 0

1回答

理解DQN算法

你可以在图片中看到它：DQN 关于深度Q学习算法，我有几个问题。它们对第14行意味着什么：If D_i = 0, set Y_i = ...

浏览 0提问于2021-08-12得票数 0

回答已采纳

1回答

双DQN的表现明显差于香草DQN

我的问题是，双DQN的表现似乎比香草DQN差得多，我不知道为什么。应该表现得更好对吧？奖励函数有什么问题吗？还是我做错了什么？到目前为止，平均报酬曲线是这样的：下面是我的双DQN代码：REPLAY_MEMORY_SIZE = 10_000 MIN_REPLAY_MEMORY_SIZE

浏览 7修改于2022-07-27得票数 0

1回答

DQN不学习

我试图在CarPole环境中使用Pytorch实现一个DQN。我不知道为什么，但无论我试着训练经纪人多长时间，即使分数普遍增加，他们只是波动，没有保持高分。代码来自为tensorflow编写的DQN教程，该教程正常运行，但当我试图转换为Py手电时，它就学不到了。

浏览 0提问于2020-12-21得票数 1

1回答

简单DQN慢速训练

我一直试图用本文中的DQN来解决OpenAI月球着陆器的游戏。 observation_space = env.observation_space.shape[0] dqn_solverobservation_space]) score = 0 action = dqn

浏览 4修改于2021-01-22得票数 3

1回答

DQN损耗不收敛

我正在使用DQN算法在我的环境中训练一个代理，如下所示：目标是在不撞到其他汽车的情况下以预期的速度行驶。对于DQN算法，Q损失必须收敛吗？我想知道，为什么大多数的论文都没有讨论q损失。

浏览 0提问于2017-10-31得票数 20

1回答

与Keras决斗DQN

我正在尝试实现Dueling DQN，但如果我以这种方式构建NN架构，它看起来并不是在学习 X_input = Input(shape=(self.state_size,))

浏览 27修改于2020-06-12得票数 1

1回答

DQN的迁移学习

dqn.load_weights('checkpoint_reward_176.h5f') model.layers[1].trainable = False这是DQN代码。., value_min=.1, value_test=0.0, dqn = DQNAgent(model==processor, nb_actions=nb_actions, memory=memory, n

浏览 2修改于2019-08-10得票数 1

1回答

DoubleDQN与DQN的性能比较

我在健身房NChain游戏上尝试了DoubleDQN和DQN算法，发现DoubleDQN的性能并不比DQN更稳定或更好。我将每次操作后训练的批量大小设置为1，我可以知道这是DoubleDQN没有优于DQN的原因吗？

浏览 5提问于2019-07-05得票数 0

2回答

我想我不明白DQN和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget网络，但我不明白在这段代码中是如何实现的。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN的实现中，这是在DQN的操作完成后添加的，https://github.com/keon/deep-q-learning将self.target_model.set_weights(self.model.get_weights())添加到DQN</em

浏览 0修改于2019-12-09得票数 10

1回答

真实角角rl DQN预测

大家好，我遵循教程来训练DQN代理，一切都很好states = env.observation_space.shape[0] score+=reward现在，我不想做随机的选择，我想使用DQN而不必去做类似dqn.p

浏览 13提问于2021-12-29得票数 0

1回答

keras dqn代理需要更多维度

我已经在openAI健身房的基础上构建了一个定制环境，我的目标是在这个环境上训练一个DQN代理。actions): memory = SequentialMemory(limit=50000, window_length=1) nb_actions=actions, nb_steps_warmup=10, target_model_update=1e-2) return dqn但是，拟合代理时会

浏览 0修改于2021-01-20得票数 1

1回答

DQN不稳定预测

我用java从头开始实现了DQN，一切都是定制的。我把它变成了一条蛇，结果真的很好。但我有个问题。 discount factor: 0.9 steps to update target network: 300 000 (means

浏览 0提问于2020-03-08得票数 0

1回答

如果DQN测试的奖励低于DQN最小化问题训练的奖励，是否可以接受？

如果我们训练一个DQN超过40000-60000集的500个时间步调。在过去的100步训练中，在测试过程中，奖励的平均值约为奖励的1.1倍。越多的时间步骤应该更稳定？？我们的DQN还好吗？一个测试随机数是120！但是另一个是400！或者反之亦然，如果最小化测试的奖励超过了最近100次训练的平均值的2倍，是否可以接受呢？我们的DQN还好吗？

浏览 0修改于2018-10-14得票数 0

7回答

如何实现深度强化学习（DQN）?

深度学习、编程算法、强化学习

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法，该如何实现深度强化学习（DQN）呢?

浏览 3845提问于2018-10-10

1回答

在线DQN模式能否过关？

我是新的领域的RL，目前试图培训一个在线的DQN模式。一个在线模型会不会因为它一直在学习而变得过于适合？我怎么知道会不会发生这种事？

浏览 0提问于2021-09-22得票数 1

1回答

定义DQN的输出大小

这是我的模型的缺点： super(DQN, self).

浏览 1修改于2020-04-09得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

决斗DQN和双DQN的区别？

为什么分布的DQN比香草DQN快？

DQN不收敛

与vanilla DQN相比，双DQN的性能较差

理解DQN算法

双DQN的表现明显差于香草DQN

DQN不学习

简单DQN慢速训练

DQN损耗不收敛

与Keras决斗DQN

DQN的迁移学习

DoubleDQN与DQN的性能比较

DDQN和DQN有什么区别？

真实角角rl DQN预测

keras dqn代理需要更多维度

DQN不稳定预测

如果DQN测试的奖励低于DQN最小化问题训练的奖励，是否可以接受？

如何实现深度强化学习（DQN）?

在线DQN模式能否过关？

定义DQN的输出大小

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐