搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

actor-critic模型中的共享参数是如何工作的？

我有一个关于强化学习中的Actor-Critic模型的问题。在听Berkeley大学的策略梯度方法类时，在讲座中提到，在使用一些策略参数优化策略和使用一些值函数参数优化值函数的actor-critic算法中，在一些算法(例如A2C/A3C)中，我们在两个优化问题中使用相同的参数

浏览 80提问于2019-05-26得票数 1

回答已采纳

1回答

actor-critic强化学习中的动作约束

我已经在一个简单的网格世界中实现了 RL算法，它有四个可能的动作(上、下、左、右)，我注意到在某些情况下，它往往会在上下或左右之间摇摆。添加约束似乎是该领域的普遍愿望，所以我想知道是否有人知道我应该为此目的使用的标准方法。如果不是，那么我的特别方法看起来是否合理。

浏览 5提问于2013-01-31得票数 2

1回答

深度强化学习中的有效奖励范围

在DQN、Actor-Critic或A3C中选择奖励值时，是否有选择奖励值的通用规则？你能告诉我什么建议和原因吗？

浏览 35提问于2018-08-13得票数 1

1回答

如何将参与者的输出限制在特定的范围内？

我认为Actor-Critic和DDPG算法将是解决我的问题的一个很好的方法。当我实现Actor部分时，我发现大多数在线示例都将Actor的输出限制在(-1，1)的范围内。

浏览 0提问于2018-05-29得票数 1

1回答

通过高斯策略的RL连续控制是如何工作的？

我正在实现软Actor-Critic算法，但我不能理解stocastic策略是如何工作的。我已经在网上搜索过了，但我没有找到任何有趣的网站来很好地解释下面的实现。

浏览 46提问于2019-02-07得票数 3

回答已采纳

1回答

Adam优化器错误:梯度计算所需的变量之一已被内部操作修改。

optimizer_M.step() loss.backward()以下是代理网络 # Actor-Critic

浏览 0修改于2019-04-14得票数 2

回答已采纳

1回答

在循环中使用Keras时，如何防止内存使用量激增

@ y self.projection = P return Py #%% Moving Target Game with Actor and Actor-Critic

浏览 103修改于2021-02-21得票数 2

回答已采纳

1回答

如何在没有健身房的情况下使用自己的环境进行DDPG

actor_model.get_weights()) # Learning rate for actor-critic

浏览 17提问于2020-11-12得票数 0

actor-critic模型中的共享参数是如何工作的？

actor-critic强化学习中的动作约束

深度强化学习中的有效奖励范围

如何将参与者的输出限制在特定的范围内？

通过高斯策略的RL连续控制是如何工作的？

Adam优化器错误:梯度计算所需的变量之一已被内部操作修改。

在循环中使用Keras时，如何防止内存使用量激增

如何在没有健身房的情况下使用自己的环境进行DDPG

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐