腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
3
回答
为什么RL被称为“
强化
”
学习
?
我理解为什么机器
学习
是这样命名的,除此之外,还有监督
学习
和无监督
学习
背后的术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
1
回答
强化
学习
我想使用这个Q
学习
(
强化
学习
)代码。
浏览 1
修改于2019-12-05
得票数 6
回答已采纳
1
回答
联合
强化
学习
我使用多个代理,使用多个代理,每个代理运行,通过PyTorch实现联合的深度Q
学习
。
浏览 2
修改于2021-03-30
得票数 0
2
回答
多agent
强化
学习
与多目标
强化
学习
多agent
强化
学习
与多目标
强化
学习
有什么区别?我认为这两种方法都能达到一些目标..。
浏览 7
提问于2022-09-21
得票数 1
回答已采纳
3
回答
强化
学习
工具
Tensorforce、Kerasrl和chainerrl用于
强化
学习
的区别是什么?据我所知,这三种方法都与OpenAI健身房环境有关,并且具有相同的
强化
学习
算法。在表现上有什么不同吗?
浏览 1
修改于2018-09-11
得票数 1
2
回答
强化
学习
算法
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉使用监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
1
回答
静态
强化
学习
Q
学习
能在每一步的静态状态下工作吗? 我的意思是,这些行为根本不影响下面的状态。这些事件只是一次又一次地重复相同的数据。当然,不同的行为会带来不同的回报,但是在这种情况下,Q
学习
是正确的概念吗?
浏览 0
提问于2018-04-05
得票数 1
回答已采纳
1
回答
深度
强化
学习
我正在使用一种深度
强化
学习
方法来导航一个agent从一个初始点到一个目标点。现场还有其他因素和障碍。我没有找到如何创建dataset,如何使用我前面提到的3个元素。 有人能帮帮我吗!提前谢谢!
浏览 2
提问于2020-03-19
得票数 0
1
回答
强化
学习
(Q
学习
)
我正在阅读一篇关于traffic流优化的论文,使用多Agent Q
学习
。本文提出了以下方法:在每个交叉口设置一个带有交通灯的
强化
学习
控制器。我是一个加强
学习
的新手,所以如果你觉得我的问题幼稚,请给我推荐一本合适的教科书。谢谢
浏览 0
修改于2018-03-05
得票数 1
回答已采纳
2
回答
强化
学习
:
强化
算法中的折扣奖励
我正在研究
强化
学习
的
强化
算法。我很难理解如何计算奖励。📷从步骤t返回到步骤T1,即R_t + R_(t+1) +.
浏览 0
提问于2018-09-13
得票数 4
回答已采纳
1
回答
并行深
强化
学习
我试着在低速环境下运行DRL,而连续
学习
让我很不爽。是否有加速
学习
的过程?我尝试了一些离线深入
强化
学习
,但我仍然需要更高的速度(如果可能的话)。
浏览 6
修改于2021-12-13
得票数 0
回答已采纳
1
回答
如何应用
强化
学习
?
我从概念上理解它。你有一个代理和一个环境。然后你有一组状态,每个状态都有一个值。然后,智能体要么选择“探索”,要么选择“利用”,并根据发生的事情修改其知识。我正在试着为俄罗斯方块写一个RL代理,但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我,我会很感激的。谢谢:)
浏览 1
提问于2013-11-13
得票数 2
1
回答
连续
强化
学习
优化
我正在实现连续
强化
学习
(用深度
强化
学习
的连续控制),但在优化策略-神经网络时遇到了一些问题。我计划将策略的输出限制在0,1,而不是线性输出层,但这似乎严重阻碍了优化过程,而且算法无法再
学习
好的策略。
浏览 1
提问于2017-04-29
得票数 2
4
回答
什么是
强化
学习
?
我熟悉监督
学习
和非监督
学习
的概念,但最近加强了(
强化
?)
学习
也在我面前出现过几次。谁能给出一个提示,它是什么,与其他两个(或特别是与无监督类型)的主要区别,有一些很好的例子?
浏览 0
提问于2016-10-04
得票数 6
1
回答
强化
学习
代价函数
我完全理解监督
学习
,但在这里我们没有任何标签来再次得分。 我该如何开始优化网络? 也许指向现有代码或一些文献的指针会有所帮助。
浏览 25
提问于2019-03-13
得票数 0
1
回答
强化
学习
-动作数
因此,如果一个智能体正在
学习
踢足球,并且可用的动作是{kick,don't kick} <code>D4</code> =2
浏览 41
提问于2020-03-14
得票数 1
回答已采纳
1
回答
强化
学习
目标数据
我有一个关于
强化
学习
的问题。假设我们有一个能够适应不断变化的环境的机器人。类似于本文中的。
浏览 0
提问于2020-07-06
得票数 0
2
回答
强化
学习
玩具项目
我的玩具项目
学习
和应用
强化
学习
是: 如果你不能回答所有的问题,你可以回答其中的一些问题。 谢谢
浏览 4
修改于2010-06-02
得票数 3
回答已采纳
1
回答
强化
学习
的边界
我终于开发了一个游戏机器人,
学习
如何玩游戏蛇与深度Q-
学习
。我尝试了不同的神经网络和超参数,我找到了一个工作装置,为一组特定的奖励。当我不为此奖励代理人,而只奖励死亡和积极的食物吃,代理人不
学习
。国家考虑到附近是否有任何危险,如果食物是向上,向下,右或左,以及如果代理人是上,下,右或左。问题是:在
强化
学习
中,奖励正确方向的行为者是“正确的方法”吗?或者被认为是作弊,因为系统需要自己去
学习
?把食物的坐标作为一种“欺骗”的另一种方式吗?
浏览 0
提问于2018-09-20
得票数 1
回答已采纳
1
回答
Pybrain
强化
学习
实例
正如问题所述,我正在寻找一个很好的解释/示例,以加强在pybrain中的
学习
,因为这方面的文档给我带来了无尽的困惑,我可以让它开始工作,但我不知道如何将它应用于其他事情。 谢谢汤姆
浏览 3
提问于2015-06-13
得票数 4
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券