搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

3回答

为什么RL被称为“强化”学习？

我理解为什么机器学习是这样命名的，除此之外，还有监督学习和无监督学习背后的术语。那么，关于强化学习，reinforced是什么？

浏览 63提问于2018-05-28得票数 4

回答已采纳

1回答

强化学习

我想使用这个Q学习(强化学习)代码。

浏览 1修改于2019-12-05得票数 6

回答已采纳

1回答

联合强化学习

我使用多个代理，使用多个代理，每个代理运行，通过PyTorch实现联合的深度Q学习。

浏览 2修改于2021-03-30得票数 0

2回答

多agent强化学习与多目标强化学习

多agent强化学习与多目标强化学习有什么区别？我认为这两种方法都能达到一些目标..。

浏览 7提问于2022-09-21得票数 1

回答已采纳

3回答

强化学习工具

Tensorforce、Kerasrl和chainerrl用于强化学习的区别是什么？据我所知，这三种方法都与OpenAI健身房环境有关，并且具有相同的强化学习算法。在表现上有什么不同吗？

浏览 1修改于2018-09-11得票数 1

2回答

强化学习算法

我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。谢谢!

浏览 0提问于2021-11-15得票数 0

回答已采纳

1回答

静态强化学习

Q学习能在每一步的静态状态下工作吗？我的意思是，这些行为根本不影响下面的状态。这些事件只是一次又一次地重复相同的数据。当然，不同的行为会带来不同的回报，但是在这种情况下，Q学习是正确的概念吗？

浏览 0提问于2018-04-05得票数 1

回答已采纳

1回答

深度强化学习

我正在使用一种深度强化学习方法来导航一个agent从一个初始点到一个目标点。现场还有其他因素和障碍。我没有找到如何创建dataset，如何使用我前面提到的3个元素。有人能帮帮我吗！提前谢谢！

浏览 2提问于2020-03-19得票数 0

1回答

强化学习(Q学习)

我正在阅读一篇关于traffic流优化的论文，使用多Agent Q学习。本文提出了以下方法:在每个交叉口设置一个带有交通灯的强化学习控制器。我是一个加强学习的新手，所以如果你觉得我的问题幼稚，请给我推荐一本合适的教科书。谢谢

浏览 0修改于2018-03-05得票数 1

回答已采纳

2回答

强化学习:强化算法中的折扣奖励

我正在研究强化学习的强化算法。我很难理解如何计算奖励。📷从步骤t返回到步骤T1，即R_t + R_(t+1) +.

浏览 0提问于2018-09-13得票数 4

回答已采纳

1回答

并行深强化学习

我试着在低速环境下运行DRL，而连续学习让我很不爽。是否有加速学习的过程？我尝试了一些离线深入强化学习，但我仍然需要更高的速度(如果可能的话)。

浏览 6修改于2021-12-13得票数 0

回答已采纳

1回答

如何应用强化学习？

我从概念上理解它。你有一个代理和一个环境。然后你有一组状态，每个状态都有一个值。然后，智能体要么选择“探索”，要么选择“利用”，并根据发生的事情修改其知识。我正在试着为俄罗斯方块写一个RL代理，但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我，我会很感激的。谢谢:)

浏览 1提问于2013-11-13得票数 2

1回答

连续强化学习优化

我正在实现连续强化学习(用深度强化学习的连续控制)，但在优化策略-神经网络时遇到了一些问题。我计划将策略的输出限制在0,1，而不是线性输出层，但这似乎严重阻碍了优化过程，而且算法无法再学习好的策略。

浏览 1提问于2017-04-29得票数 2

4回答

什么是强化学习？

我熟悉监督学习和非监督学习的概念，但最近加强了(强化？)学习也在我面前出现过几次。谁能给出一个提示，它是什么，与其他两个(或特别是与无监督类型)的主要区别，有一些很好的例子？

浏览 0提问于2016-10-04得票数 6

1回答

强化学习代价函数

我完全理解监督学习，但在这里我们没有任何标签来再次得分。我该如何开始优化网络？也许指向现有代码或一些文献的指针会有所帮助。

浏览 25提问于2019-03-13得票数 0

1回答

强化学习-动作数

因此，如果一个智能体正在学习踢足球，并且可用的动作是{kick，don't kick} <code>D4</code> =2

浏览 41提问于2020-03-14得票数 1

回答已采纳

1回答

强化学习目标数据

我有一个关于强化学习的问题。假设我们有一个能够适应不断变化的环境的机器人。类似于本文中的。

浏览 0提问于2020-07-06得票数 0

2回答

强化学习玩具项目

我的玩具项目学习和应用强化学习是：如果你不能回答所有的问题，你可以回答其中的一些问题。谢谢

浏览 4修改于2010-06-02得票数 3

回答已采纳

1回答

我终于开发了一个游戏机器人，学习如何玩游戏蛇与深度Q-学习。我尝试了不同的神经网络和超参数，我找到了一个工作装置，为一组特定的奖励。当我不为此奖励代理人，而只奖励死亡和积极的食物吃，代理人不学习。国家考虑到附近是否有任何危险，如果食物是向上，向下，右或左，以及如果代理人是上，下，右或左。问题是:在强化学习中，奖励正确方向的行为者是“正确的方法”吗？或者被认为是作弊，因为系统需要自己去学习？把食物的坐标作为一种“欺骗”的另一种方式吗？

浏览 0提问于2018-09-20得票数 1

回答已采纳

1回答

Pybrain强化学习实例

正如问题所述，我正在寻找一个很好的解释/示例，以加强在pybrain中的学习，因为这方面的文档给我带来了无尽的困惑，我可以让它开始工作，但我不知道如何将它应用于其他事情。谢谢汤姆

浏览 3提问于2015-06-13得票数 4

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

为什么RL被称为“强化”学习？

强化学习

联合强化学习

多agent强化学习与多目标强化学习

强化学习工具

强化学习算法

静态强化学习

深度强化学习

强化学习(Q学习)

强化学习:强化算法中的折扣奖励

并行深强化学习

如何应用强化学习？

连续强化学习优化

什么是强化学习？

强化学习代价函数

强化学习-动作数

强化学习目标数据

强化学习玩具项目

强化学习的边界

Pybrain强化学习实例

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐