腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何用不同的模型对基于DQN的深度神经网络进行
强化
学习
?
如果不使用深层神经网络(DNN)来实现
强化
学习
算法
,比如深度Q-网络(DQN),可以实现吗?在下面的DQN伪码中,如果我想用另一种无监督
算法
替换DNN部分,它可能吗?
浏览 0
修改于2018-08-31
得票数 3
1
回答
如何用
强化
学习
算法
建立实时控制器
我正在尝试使用
强化
学习
来控制一个实际的机器人操纵器。对于
强化
学习
,我使用的是Google tensorflow。C++中有没有使用Tensorflow
强化
学习
算法
的方法?或者,有没有其他方法可以在C++实时控制器上实现
强化
学习
算法<
浏览 0
提问于2019-04-01
得票数 0
2
回答
“
强化
学习
”在监督
学习
模型中的应用
是否可以在有监督的模型上使用“
强化
学习
”或反馈回路?我使用监督
学习
模型(更确切地说是线性回归模型)解决了一个机器
学习
问题,但我希望通过对预测输出创建一个反馈环来改进结果,即如果
算法
在某些例子上出错,就告诉
算法
。据我所知,这基本上就是
强化
学习
的工作原理:该模型从正负反馈中
学习
。 我发现我们可以使用PyBrain实现有监督
学习
和
强化
学习
算法
,但我无法找到两者之间的关联
浏览 2
提问于2019-07-11
得票数 0
7
回答
如何实现深度
强化
学习
(DQN)?
深度学习
、
编程算法
、
强化学习
DQN(Deep Q-Learning)可谓是深度
强化
学习
(Deep Reinforcement Learning,DRL)的开山之作,是将深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)
学习
的一种全新的
算法
,该如何实现深度
强化
学习
(DQN)呢?
浏览 3843
提问于2018-10-10
3
回答
在深度
强化
学习
中,神经网络的设计是否有经验法则?
在深入
学习
中,我们可以用损失函数值来评估模型的性能,并通过K倍交叉验证等方法来提高模型的性能。但是,如何设计和优化神经网络在深度
强化
学习
中的应用呢?我们可以用奖励等来评估
强化
学习
算法
本身的性能,但是如何保证神经网络在
强化
学习
算法
中的应用是好的还是坏的呢?
浏览 0
提问于2019-02-08
得票数 3
2
回答
为什么要将马尔可夫性质引入
强化
学习
?
作为深度
强化
学习
的初学者,我很困惑为什么我们应该在
强化
学习
中使用马尔可夫过程,以及它给
强化
学习
带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度
强化
学习
算法
可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?
浏览 4
提问于2020-12-23
得票数 0
2
回答
强化
学习
算法
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉使用监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
深入的Q-
学习
,A3C,政策进化的遗传
算法
,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用):深度
强化
学习
的大规模并行
学习
方法基于深度
强化
学习
的
浏览 0
修改于2018-02-19
得票数 3
回答已采纳
3
回答
强化
学习
工具
Tensorforce、Kerasrl和chainerrl用于
强化
学习
的区别是什么?据我所知,这三种方法都与OpenAI健身房环境有关,并且具有相同的
强化
学习
算法
。在表现上有什么不同吗?
浏览 1
修改于2018-09-11
得票数 1
1
回答
连续动作空间(人形-v2)增强的实现?
我已经看到了用于具有离散动作空间的
强化
学习
任务的
强化
策略
算法
的多个实现。是否有针对连续动作空间的
算法
(或其他策略梯度
算法
)的实现?
浏览 1
提问于2018-04-13
得票数 2
1
回答
Grover
算法
在机器
学习
中的应用
我正在尝试了解grover
算法
的应用。我已经看到它可以应用于DNA序列比对。我想知道在机器
学习
(深度
学习
,NLP和
强化
学习
)中,我可以在哪里使用grover
算法
。
浏览 33
修改于2021-01-31
得票数 1
1
回答
强化
学习
真的能解决实际的排班问题吗?
编程算法
、
强化学习
关于
强化
学习
解决排班
算法
的问题,如果是有一大堆的约束条件且要求说每个人一天一定要上满7天班,但是总会有人请假休息,遇到这种问题还能使用
强化
学习
去实现排班吗?如果不能实现,那
强化
学习
实现排班的这个demo就没有什么价值了,因为没有解决实际问题。
浏览 443
提问于2021-03-23
1
回答
最坏情况分析
学习
算法
的最坏情况分析 if(x>=2) Fn(y) Else fn(n)对于
算法<
浏览 0
修改于2020-01-14
得票数 1
回答已采纳
1
回答
如何将Drake与深度
强化
学习
结合使用
drake有没有实现深度
强化
学习
算法
的管道/平台?
浏览 20
提问于2021-01-28
得票数 0
2
回答
强化
学习
:
强化
算法
中的折扣奖励
我正在研究
强化
学习
的
强化
算法
。我很难理解如何计算奖励。📷从步骤t返回到步骤T1,即R_t + R_(t+1) +.
浏览 0
提问于2018-09-13
得票数 4
回答已采纳
1
回答
整洁与
强化
学习
的关系是什么?
据我所知,train (增强拓扑的NeuroEvolution)是一种利用进化的概念来训练神经网络的
算法
。另一方面,
强化
学习
是一种机器
学习
,其概念是“奖励”更成功的节点。还是从
强化
学习
中衍生出来的整洁?
浏览 2
修改于2018-11-11
得票数 7
回答已采纳
1
回答
我可以在tensorflowjs中使用
强化
学习
吗?
我目前正在做一个项目,它需要tensorflowjs创建一个从
强化
学习
算法
中
学习
的神经网络。这有可能做到吗?
浏览 33
提问于2019-06-26
得票数 1
回答已采纳
2
回答
基于
强化
学习
的神经网络训练
我知道前馈神经网络的基本知识,以及如何使用反向传播
算法
来训练它们,但我正在寻找一种比我能用来训练神经网络的
强化
学习
的
算法
。另一种情况类似于,在这种情况下,反馈被延迟,只限于目标和反目标,而不是奖励。对于第一种情况,我可以想到一些
算法
,比如爬山或遗传
算法
,但我猜它们都会很慢。它们也可能适用于第二种情况,但速度慢得令人难以置信,不利于在线
学习</
浏览 1
提问于2012-05-23
得票数 67
回答已采纳
1
回答
C++
强化
学习
库
我一直在寻找一个实现
强化
学习
算法
的C++库,但对结果不是很满意。还有来自的代码。它看起来很有希望,但似乎没有得到积极的维护。在C++中,您使用哪些库进行
强化
学习
?
浏览 2
修改于2012-01-06
得票数 15
1
回答
基于
强化
学习
的神经网络输出约束的最佳方法
我遵循策略梯度
强化
学习
的
强化
算法
.我知道回归(因此我猜是
强化
学习
)线性输出是最好的,虽然乙状结肠有一个线性部分,我担心网络无法正确地捕捉到这种线性输出行为,或者它捕捉它的速度太慢
浏览 0
提问于2018-08-05
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券