搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

强化学习算法

我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。谢谢!

浏览 0提问于2021-11-15得票数 0

回答已采纳

2回答

强化学习:强化算法中的折扣奖励

我正在研究强化学习的强化算法。我很难理解如何计算奖励。📷从步骤t返回到步骤T1，即R_t + R_(t+1) +.

浏览 0提问于2018-09-13得票数 4

回答已采纳

1回答

如何用强化学习算法建立实时控制器

我正在尝试使用强化学习来控制一个实际的机器人操纵器。对于强化学习，我使用的是Google tensorflow。C++中有没有使用Tensorflow强化学习算法的方法？或者，有没有其他方法可以在C++实时控制器上实现强化学习算法<

浏览 0提问于2019-04-01得票数 0

1回答

强化学习算法的有效数据馈送

我目前正在用TensorFlow实现深度双Q学习算法。我有一个基于NumPy数组实现的重放缓冲区的经验。然而，一些性能分析表明，使用feed_dict将数据从NumPy数组馈送到图形的效率非常低。

浏览 3提问于2017-02-24得票数 8

1回答

简单强化学习算法的损失函数

这个问题来自于在TensorFlow上观看以下视频和从Google /O 18中强化学习：或者说，我缺少一些基本的东西(可能是因为我的数学技能非常有限)？

浏览 2提问于2018-12-04得票数 4

回答已采纳

1回答

基于折扣奖励的深度强化学习算法

我正在用基线实现一个增强算法，但我对折扣奖励函数有疑问。

浏览 6提问于2020-12-10得票数 2

1回答

什么时候使用某种强化学习算法？

我正在学习强化学习，正在为一门大学课程阅读萨顿的书。除了经典的PD、MC、TD和Q-Learning算法外，我还在阅读策略梯度方法和用于解决决策问题的遗传算法。Policy梯度和遗传算法对于连续的MDP是好的。但是当其中一个比另一个更好的时候呢？是在线学习还是离线学习？但我不知道问题的这些细节如何影响学习方法的选择。我希望一些程序员已经有了一些关于R

浏览 64修改于2014-03-29得票数 23

1回答

我正在将强化学习应用于时间序列预测问题。到目前为止，我已经用LSTM实现了一个决斗DDQN算法，它似乎给出了一些很好的结果，尽管有时收敛速度很慢，这取决于确切的问题。然后，我使用C51分布式强化学习来比较性能(我希望这会带来更好的结果)。我稍微修改了谷歌代码，将其集成到我的代码中(网络和培训部分)。我还使用了双Q学习来选择下一个状态动作(原始代码没有使用)。相比之下，我之前的决斗DDQN过去需要3.5h才能训练50000集，而C51算法现在花了近10个小时，但只达到了

浏览 0修改于2019-08-15得票数 0

1回答

一种强化学习算法的训练

问题:我试图在训练阶段减少增强学习算法的计算时间并优化其特定功能，并注意到一段代码的计算开销太大(下面描述的for循环)。循环描述该函数的取值范围为.n=3 (n是RL算法中的代理数)，索引是一个包含随机数列表(1024 -固定列表)的列表，以检索一组观察、动作、下一次观察等。为了更好地理解，我使用Sel.n =3和self.n=6运行整个算法，对于60,000集(循环触发的次数越多)，计算时间分别为1758.40秒和4616.31秒。我很高兴回答任何问题。

浏览 0修改于2023-02-12得票数 0

2回答

如何减少深层强化学习算法的内存使用量？

我编写了一个DQN脚本来播放BreakoutDeterministic，并在我的学校GPU服务器上运行它。但是，代码似乎占用了内存总内存的97% (超过100 it )！我用PyCharm (python3.6)编写了脚本。我的笔记本电脑没有GPU的12 is内存，但学校服务器使用的是Ubuntu，p100 GPU。import numpy as npfrom collections import deque

浏览 0提问于2019-01-25得票数 2

1回答

连续状态空间和离散动作空间的最佳强化学习算法

这种情况下最好的RL算法是什么？

浏览 5修改于2019-10-25得票数 0

1回答

演员批判性强化学习算法神经网络体系结构的混淆

我试图了解演员批评家强化学习算法的实现。根据这，动作概率和状态值应该只有一个具有两个头的神经网络。在他们的tensorflow实现这里中也是如此。那么，我的问题是，对于演员批判性算法，神经网络的正确方法是什么？

浏览 0修改于2018-07-21得票数 4

回答已采纳

1回答

为什么我的强化算法不学习？

我正在CartPole环境上训练一个增强算法。由于环境的简单性质，我希望它能很快学习。然而，这种情况并没有发生。这是算法的主要部分- print("i = ", i) done = Falsetorch.log(prob_batch)*nrml_disc_rewards)) loss.backward()这是整个算法</

浏览 7修改于2022-10-26得票数 0

回答已采纳

2回答

四连排游戏强化学习的最佳算法

对于四连胜的游戏，强化学习的最佳算法是什么？我想构建一个四连排的游戏，它将使用RL算法之一来玩: Q-Learning，MinMax等。考虑到我使用的是Java，什么是最好的。

浏览 1提问于2012-01-08得票数 0

回答已采纳

1回答

选择不可行动作时陷入无限循环的强化学习算法

我的环境对的影响，那么问题是什么？，在这种情况下会发生什么？在这种情况下，

浏览 10修改于2022-06-29得票数 0

1回答

大状态空间和大动作空间下基于模型的强化学习算法的推广策略

我正在使用一种基于模型的单智能体强化学习方法来进行自主飞行。在这个项目中，我使用模拟器来收集训练数据(状态、动作、结束状态)，以便Locally Weighted Linear Regression算法可以学习MODEL。policy iteration的算法如下： 1) select the best action according

浏览 3提问于2015-08-26得票数 4

1回答

哪种强化学习算法适用于具有连续可变奖励和没有中间奖励的问题？

有没有针对这类问题的现有算法？编辑:通过“连续变量”奖励，我的意思是它是一个浮点数，而不是一个输赢的二进制。因此，例如，你不能通过强化为达到目标而采取的行动来回应“胜利”。你所拥有的只是一个数字。

浏览 3修改于2019-08-04得票数 1

1回答

在某些连续空间的RL库中，可以通过舍入来实现离散空间的强化学习算法吗？

对于离散的动作空间环境，RL算法可以通过简单地映射(或舍入)agent在连续空间范围(健身房环境)中的动作到openai健身房环境中的离散动作来实现RL算法吗？

浏览 3提问于2022-01-21得票数 0

1回答

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

如果不使用深层神经网络(DNN)来实现强化学习算法，比如深度Q-网络(DQN)，可以实现吗？在下面的DQN伪码中，如果我想用另一种无监督算法替换DNN部分，它可能吗？

浏览 0修改于2018-08-31得票数 3

2回答

“强化学习”在监督学习模型中的应用

是否可以在有监督的模型上使用“强化学习”或反馈回路？我使用监督学习模型(更确切地说是线性回归模型)解决了一个机器学习问题，但我希望通过对预测输出创建一个反馈环来改进结果，即如果算法在某些例子上出错，就告诉算法。据我所知，这基本上就是强化学习的工作原理:该模型从正负反馈中学习。我发现我们可以使用PyBrain实现有监督学习和强化学习算法，但我无法找到两者之间的关联

浏览 2提问于2019-07-11得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

强化学习算法

强化学习:强化算法中的折扣奖励

如何用强化学习算法建立实时控制器

强化学习算法的有效数据馈送

简单强化学习算法的损失函数

基于折扣奖励的深度强化学习算法

什么时候使用某种强化学习算法？

C51强化学习算法速度极慢

一种强化学习算法的训练

如何减少深层强化学习算法的内存使用量？

连续状态空间和离散动作空间的最佳强化学习算法

演员批判性强化学习算法神经网络体系结构的混淆

为什么我的强化算法不学习？

四连排游戏强化学习的最佳算法

选择不可行动作时陷入无限循环的强化学习算法

大状态空间和大动作空间下基于模型的强化学习算法的推广策略

哪种强化学习算法适用于具有连续可变奖励和没有中间奖励的问题？

在某些连续空间的RL库中，可以通过舍入来实现离散空间的强化学习算法吗？

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

“强化学习”在监督学习模型中的应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐