腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(8)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
actor-critic
模型中的共享参数是如何工作的?
我有一个关于强化学习中的
Actor-Critic
模型的问题。在听Berkeley大学的策略梯度方法类时,在讲座中提到,在使用一些策略参数优化策略和使用一些值函数参数优化值函数的
actor-critic
算法中,在一些算法(例如A2C/A3C)中,我们在两个优化问题中使用相同的参数
浏览 80
提问于2019-05-26
得票数 1
回答已采纳
1
回答
actor-critic
强化学习中的动作约束
我已经在一个简单的网格世界中实现了 RL算法,它有四个可能的动作(上、下、左、右),我注意到在某些情况下,它往往会在上下或左右之间摇摆。添加约束似乎是该领域的普遍愿望,所以我想知道是否有人知道我应该为此目的使用的标准方法。如果不是,那么我的特别方法看起来是否合理。
浏览 5
提问于2013-01-31
得票数 2
1
回答
深度强化学习中的有效奖励范围
在DQN、
Actor-Critic
或A3C中选择奖励值时,是否有选择奖励值的通用规则?你能告诉我什么建议和原因吗?
浏览 35
提问于2018-08-13
得票数 1
1
回答
如何将参与者的输出限制在特定的范围内?
我认为
Actor-Critic
和DDPG算法将是解决我的问题的一个很好的方法。 当我实现Actor部分时,我发现大多数在线示例都将Actor的输出限制在(-1,1)的范围内。
浏览 0
提问于2018-05-29
得票数 1
1
回答
通过高斯策略的RL连续控制是如何工作的?
我正在实现软
Actor-Critic
算法,但我不能理解stocastic策略是如何工作的。我已经在网上搜索过了,但我没有找到任何有趣的网站来很好地解释下面的实现。
浏览 46
提问于2019-02-07
得票数 3
回答已采纳
1
回答
Adam优化器错误:梯度计算所需的变量之一已被内部操作修改。
optimizer_M.step() loss.backward()以下是代理网络 #
Actor-Critic
浏览 0
修改于2019-04-14
得票数 2
回答已采纳
1
回答
在循环中使用Keras时,如何防止内存使用量激增
@ y self.projection = P return Py #%% Moving Target Game with Actor and
Actor-Critic
浏览 103
修改于2021-02-21
得票数 2
回答已采纳
1
回答
如何在没有健身房的情况下使用自己的环境进行DDPG
actor_model.get_weights()) # Learning rate for
actor-critic
浏览 17
提问于2020-11-12
得票数 0
领券