腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
强化
学习
算法
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉使用监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
2
回答
强化
学习
:
强化
算法
中的折扣奖励
我正在研究
强化
学习
的
强化
算法
。我很难理解如何计算奖励。📷从步骤t返回到步骤T1,即R_t + R_(t+1) +.
浏览 0
提问于2018-09-13
得票数 4
回答已采纳
1
回答
如何用
强化
学习
算法
建立实时控制器
我正在尝试使用
强化
学习
来控制一个实际的机器人操纵器。对于
强化
学习
,我使用的是Google tensorflow。C++中有没有使用Tensorflow
强化
学习
算法
的方法?或者,有没有其他方法可以在C++实时控制器上实现
强化
学习
算法<
浏览 0
提问于2019-04-01
得票数 0
1
回答
强化
学习
算法
的有效数据馈送
我目前正在用TensorFlow实现深度双Q
学习
算法
。我有一个基于NumPy数组实现的重放缓冲区的经验。然而,一些性能分析表明,使用feed_dict将数据从NumPy数组馈送到图形的效率非常低。
浏览 3
提问于2017-02-24
得票数 8
1
回答
简单
强化
学习
算法
的损失函数
这个问题来自于在TensorFlow上观看以下视频和从Google /O 18中
强化
学习
:或者说,我缺少一些基本的东西(可能是因为我的数学技能非常有限)?
浏览 2
提问于2018-12-04
得票数 4
回答已采纳
1
回答
基于折扣奖励的深度
强化
学习
算法
我正在用基线实现一个增强
算法
,但我对折扣奖励函数有疑问。
浏览 6
提问于2020-12-10
得票数 2
1
回答
什么时候使用某种
强化
学习
算法
?
我正在
学习
强化
学习
,正在为一门大学课程阅读萨顿的书。除了经典的PD、MC、TD和Q-Learning
算法
外,我还在阅读策略梯度方法和用于解决决策问题的遗传
算法
。Policy梯度和遗传
算法
对于连续的MDP是好的。但是当其中一个比另一个更好的时候呢?是在线
学习
还是离线
学习
?但我不知道问题的这些细节如何影响
学习
方法的选择。我希望一些程序员已经有了一些关于R
浏览 64
修改于2014-03-29
得票数 23
1
回答
C51
强化
学习
算法
速度极慢
我正在将
强化
学习
应用于时间序列预测问题。到目前为止,我已经用LSTM实现了一个决斗DDQN
算法
,它似乎给出了一些很好的结果,尽管有时收敛速度很慢,这取决于确切的问题。然后,我使用C51分布式
强化
学习
来比较性能(我希望这会带来更好的结果)。 我稍微修改了谷歌代码,将其集成到我的代码中(网络和培训部分)。我还使用了双Q
学习
来选择下一个状态动作(原始代码没有使用)。相比之下,我之前的决斗DDQN过去需要3.5h才能训练50000集,而C51
算法
现在花了近10个小时,但只达到了
浏览 0
修改于2019-08-15
得票数 0
1
回答
一种
强化
学习
算法
的训练
问题:我试图在训练阶段减少增强
学习
算法
的计算时间并优化其特定功能,并注意到一段代码的计算开销太大(下面描述的for循环)。循环描述 该函数的取值范围为.n=3 (n是RL
算法
中的代理数),索引是一个包含随机数列表(1024 -固定列表)的列表,以检索一组观察、动作、下一次观察等。为了更好地理解,我使用Sel.n =3和self.n=6运行整个
算法
,对于60,000集(循环触发的次数越多),计算时间分别为1758.40秒和4616.31秒。我很高兴回答任何问题。
浏览 0
修改于2023-02-12
得票数 0
2
回答
如何减少深层
强化
学习
算法
的内存使用量?
我编写了一个DQN脚本来播放BreakoutDeterministic,并在我的学校GPU服务器上运行它。但是,代码似乎占用了内存总内存的97% (超过100 it )!我用PyCharm (python3.6)编写了脚本。我的笔记本电脑没有GPU的12 is内存,但学校服务器使用的是Ubuntu,p100 GPU。import numpy as npfrom collections import deque
浏览 0
提问于2019-01-25
得票数 2
1
回答
连续状态空间和离散动作空间的最佳
强化
学习
算法
这种情况下最好的RL
算法
是什么?
浏览 5
修改于2019-10-25
得票数 0
1
回答
演员批判性
强化
学习
算法
神经网络体系结构的混淆
我试图了解演员批评家
强化
学习
算法
的实现。根据这,动作概率和状态值应该只有一个具有两个头的神经网络。在他们的tensorflow实现这里中也是如此。那么,我的问题是,对于演员批判性
算法
,神经网络的正确方法是什么?
浏览 0
修改于2018-07-21
得票数 4
回答已采纳
1
回答
为什么我的
强化
算法
不
学习
?
我正在CartPole环境上训练一个增强
算法
。由于环境的简单性质,我希望它能很快
学习
。然而,这种情况并没有发生。这是
算法
的主要部分- print("i = ", i) done = Falsetorch.log(prob_batch)*nrml_disc_rewards)) loss.backward()这是整个
算法</
浏览 7
修改于2022-10-26
得票数 0
回答已采纳
2
回答
四连排游戏
强化
学习
的最佳
算法
对于四连胜的游戏,
强化
学习
的最佳
算法
是什么?我想构建一个四连排的游戏,它将使用RL
算法
之一来玩: Q-Learning,MinMax等。 考虑到我使用的是Java,什么是最好的。
浏览 1
提问于2012-01-08
得票数 0
回答已采纳
1
回答
选择不可行动作时陷入无限循环的
强化
学习
算法
我的环境对的影响,那么问题是什么?,在这种情况下会发生什么? 在这种情况下,
浏览 10
修改于2022-06-29
得票数 0
1
回答
大状态空间和大动作空间下基于模型的
强化
学习
算法
的推广策略
我正在使用一种基于模型的单智能体
强化
学习
方法来进行自主飞行。在这个项目中,我使用模拟器来收集训练数据(状态、动作、结束状态),以便Locally Weighted Linear Regression
算法
可以
学习
MODEL。policy iteration的
算法
如下: 1) select the best action according
浏览 3
提问于2015-08-26
得票数 4
1
回答
哪种
强化
学习
算法
适用于具有连续可变奖励和没有中间奖励的问题?
有没有针对这类问题的现有
算法
? 编辑:通过“连续变量”奖励,我的意思是它是一个浮点数,而不是一个输赢的二进制。因此,例如,你不能通过
强化
为达到目标而采取的行动来回应“胜利”。你所拥有的只是一个数字。
浏览 3
修改于2019-08-04
得票数 1
1
回答
在某些连续空间的RL库中,可以通过舍入来实现离散空间的
强化
学习
算法
吗?
对于离散的动作空间环境,RL
算法
可以通过简单地映射(或舍入)agent在连续空间范围(健身房环境)中的动作到openai健身房环境中的离散动作来实现RL
算法
吗?
浏览 3
提问于2022-01-21
得票数 0
1
回答
如何用不同的模型对基于DQN的深度神经网络进行
强化
学习
?
如果不使用深层神经网络(DNN)来实现
强化
学习
算法
,比如深度Q-网络(DQN),可以实现吗?在下面的DQN伪码中,如果我想用另一种无监督
算法
替换DNN部分,它可能吗?
浏览 0
修改于2018-08-31
得票数 3
2
回答
“
强化
学习
”在监督
学习
模型中的应用
是否可以在有监督的模型上使用“
强化
学习
”或反馈回路?我使用监督
学习
模型(更确切地说是线性回归模型)解决了一个机器
学习
问题,但我希望通过对预测输出创建一个反馈环来改进结果,即如果
算法
在某些例子上出错,就告诉
算法
。据我所知,这基本上就是
强化
学习
的工作原理:该模型从正负反馈中
学习
。 我发现我们可以使用PyBrain实现有监督
学习
和
强化
学习
算法
,但我无法找到两者之间的关联
浏览 2
提问于2019-07-11
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券