搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

“强化学习”在监督学习模型中的应用

是否可以在有监督的模型上使用“强化学习”或反馈回路？我使用监督学习模型(更确切地说是线性回归模型)解决了一个机器学习问题，但我希望通过对预测输出创建一个反馈环来改进结果，即如果算法在某些例子上出错，就告诉算法。据我所知，这基本上就是强化学习的工作原理:该模型从正负反馈中学习。我发现我们可以使用PyBrain实现有监督学习和强化学习算法，但我无法找到两者之间的关联

浏览 2提问于2019-07-11得票数 0

1回答

为什么深层强化学习不能学会如何玩小行星？

深入的Q-学习，A3C，政策进化的遗传算法，他们都没有学习小行星，或至少表现比人类差得多。根据RL的说法，从最艰难的Atari游戏来看，大部分的焦点都集中在蒙特祖马的复仇上，这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用)：深度强化学习的大规模并行学习方法基于深度强化学习的

浏览 0修改于2018-02-19得票数 3

回答已采纳

3回答

使用强化学习解决分类问题

我可以在分类中使用强化学习吗？比如人类活动识别？又是如何做到的？

浏览 2修改于2020-11-28得票数 11

1回答

监督学习与离线(批)强化学习

大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而，它实际上是监督学习和在线强化学习的比较，在这种情况下，agent在环境中运行(或模拟交互)，以获得对底层动力学的有限知识的反馈。我对离线(批量)强化学习更感兴趣，在这里，数据集(收集的学习经验)是先验的。与监督学习相比，有什么不同？他们可能有哪些相似之处？

浏览 4修改于2021-08-30得票数 0

回答已采纳

1回答

在ChatGPT中，强化-从人的学习反馈和数据重新标签之间的区别是什么？

强化-向人学习-反馈对培训数据-标签-再一次.

浏览 0修改于2023-02-08得票数 1

1回答

我们是否需要使用非政策方法来制定政策？

假设在一个环境中有一个强化学习任务和一个代理。我希望人类教师手动修改agent的策略(策略成形)，以加快agent的学习速度。我是否必须使用非策略的方法，或者我可以不受政策影响？为什么？

浏览 0提问于2018-10-26得票数 0

回答已采纳

2回答

我无法回答这样的问题：，负回报到底是如何帮助机器避免的？这个问题的起源来自。根据他们的逻辑，一旦游戏结束(代理赢或输分)，环境返回奖励(+1或-1)。任何中间状态返回0作为奖励。这意味着每一次胜利/松散都会返回0,0,0，0，...,0,1或者0,0,0，...,0，-1奖励数组。然后他们给奖励打折扣并使其标准化：prwd = discount_rewards(rwd, args.gamma)prw

浏览 0提问于2019-02-19得票数 0

回答已采纳

1回答

评估强化学习agent玩Atari的人追踪数据？

在最近关于Atari游戏的强化学习研究中，agents的性能是通过人的启动来评估的。我在哪里能得到这个人类专业人员的游戏追踪数据？对于票价比较，每项研究的追踪数据应该是相同的，但我找不到数据。

浏览 1修改于2018-06-26得票数 2

回答已采纳

3回答

在机器学习中使用反馈还是强化？

我想知道是否有可能在范例中引入一些反馈机制。在控制理论中，引入反馈回路是提高系统性能的有效途径。反馈方法是否正在进行研究？有人能给点线索吗？

浏览 0提问于2014-04-04得票数 16

1回答

强化学习:处理不可量化的反馈系统

我正在尝试写一个强化学习算法，为了简单起见，它将预测一个我认为通过n个输入的数字，它们是什么并不重要。但是这里的反馈是无法量化的。我该如何解决这个问题？仅供参考，我是ML的新手，它没有必要是强化学习。我也尝试过神经网络方法，但即使这样也有类似的问题。

浏览 1提问于2018-05-12得票数 1

1回答

在强化学习中，我可以在创建转换集时从状态空间随机分配next_states给我的代理吗？

在强化学习中，同时创建转换示例(状态、动作、next_state、奖励)，其中：环境:培训师环境给代理两个反馈:奖励和下一个状态。

浏览 0提问于2018-12-07得票数 1

1回答

基于已知动力学方程的强化学习控制

我知道有基于模型的强化学习。但是所有的方法都假设是MDP。如果我想对一个系统进行反馈控制(即控制倒立摆)，就很容易找到非线性微分方程。

浏览 0修改于2019-06-30得票数 0

1回答

有没有办法限制PythonHar芳3D项目中的日志输出？

我目前正在尝试调整哈方斗狗沙箱飞行模拟器的强化学习项目，我遇到的第一个“问题”是日志太冗长。作为参考，这是我正在处理的项目：

浏览 19修改于2022-05-21得票数 1

回答已采纳

2回答

基于强化学习的神经网络训练

我知道前馈神经网络的基本知识，以及如何使用反向传播算法来训练它们，但我正在寻找一种比我能用来训练神经网络的强化学习的算法。另一种情况类似于，在这种情况下，反馈被延迟，只限于目标和反目标，而不是奖励。它们也可能适用于第二种情况，但速度慢得令人难以置信，不利于在线学习。我的问题很简单：是否有一个简单的算法来训练带有强化学习的人工神经网络？

浏览 1提问于2012-05-23得票数 67

回答已采纳

1回答

如果国家不再重复，强化学习会起作用吗？

我正在收集页面单击etc.What的隐式反馈--我不明白如何定义状态--如果我想通过强化学习来实现这一点?如果我将每个查询定义为一个状态，所有的状态都会不同-- .Can --请对此有所了解！！

浏览 0提问于2018-10-24得票数 1

1回答

逆强化学习的实际应用是什么？

逆强化学习是利用专家轨迹学习奖励函数。目前最成功的方法是最大熵逆强化学习。但在这一点上，你需要一个基于模型的强化学习。但世界上大多数实际问题都是无模型的，很难计算出状态转移概率。那么，我们如何在现实问题中使用这种逆强化学习呢？

浏览 0提问于2018-04-02得票数 3

回答已采纳

6回答

如何将强化学习应用于连续动作空间？

我试图找一个代理来学习在强化学习环境中最好地执行某些任务所需的鼠标移动(即奖励信号是学习的唯一反馈)。我希望使用Q-学习技术，但是虽然我已经找到了，但我似乎不知道如何用一个连续的操作空间来解决问题。由于标准的Q-学习要求agent对所有可能的行为进行评估，这样的近似并不能解决任何实际意义上的问题。

浏览 8修改于2019-02-19得票数 50

回答已采纳

1回答

如何在没有培训数据的情况下生成评等？

我想使用强化学习来学习与用户反馈的评级，但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗？

浏览 0修改于2016-01-18得票数 0

7回答

如何实现深度强化学习（DQN）?

深度学习、编程算法、强化学习

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法，该如何实现深度强化学习（DQN）呢?

浏览 3856提问于2018-10-10

1回答

基于模型和模型的强化学习

我正在学习强化学习，我发现了令人困惑的信息。我知道有两种不同类型的强化学习，基于模型和模型自由。在第二个图像中，可以看到TD学习，所以我不明白Td学习是另一种强化学习还是基于模型的。 📷

浏览 0提问于2022-02-21得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

“强化学习”在监督学习模型中的应用

为什么深层强化学习不能学会如何玩小行星？

使用强化学习解决分类问题

监督学习与离线(批)强化学习

在ChatGPT中，强化-从人的学习反馈和数据重新标签之间的区别是什么？

我们是否需要使用非政策方法来制定政策？

强化学习中的负反馈

评估强化学习agent玩Atari的人追踪数据？

在机器学习中使用反馈还是强化？

强化学习:处理不可量化的反馈系统

在强化学习中，我可以在创建转换集时从状态空间随机分配next_states给我的代理吗？

基于已知动力学方程的强化学习控制

有没有办法限制PythonHar芳3D项目中的日志输出？

基于强化学习的神经网络训练

如果国家不再重复，强化学习会起作用吗？

逆强化学习的实际应用是什么？

如何将强化学习应用于连续动作空间？

如何在没有培训数据的情况下生成评等？

如何实现深度强化学习（DQN）?

基于模型和模型的强化学习

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐