搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

为什么Q-learning在未知的环境中工作？

Q-learning使用即时奖励矩阵R对环境进行建模。这意味着它使用一个已知的矩阵R进行学习，那么为什么人们说"Q-learning可以在未知的环境中工作“？

浏览 0修改于2018-08-21得票数 1

1回答

奖励值计算: Q-Learning

我目前正在为我正在做的Q-Learning优化奖励价值。所以现在我考虑两个值来计算一个特定的奖励值。因为这是与工作相关的，所以我不能指定我考虑的变量名。

浏览 3提问于2018-01-31得票数 2

3回答

为什么Q-Learning是非策略学习？

在幻灯片中，Q-Learning被认为是非策略学习。我不知道这背后的原因。他还提到，我们有目标和行为政策。Q-Learning中行为策略的作用是什么？我对Q-Learning算法感到非常困惑。你能帮帮我吗？幻灯片链接(第36-38页)：

浏览 0提问于2018-12-11得票数 0

1回答

使用Q-Learning算法的目的

使用Q-Learning的意义是什么？我使用了一个示例代码，表示2D棋盘上的棋子在此棋盘上移动。在董事会的右端有我们想要达到的目标。在算法完成后，我有一个Q表，其中的值被分配给每个状态-动作交汇点。

浏览 1修改于2018-04-18得票数 0

3回答

如何将MinMax树与Q-Learning结合使用？

如何将MinMax树与Q-Learning结合使用？我想实现一个Q-Learning connect four代理，并听说将MinMax树添加到其中会有所帮助。

浏览 2修改于2012-01-19得票数 3

回答已采纳

1回答

Q-learning模型没有改进

我想我误解了Q-learning的工作原理，因为我的模型没有改进。我使用字典作为我的Q表。因此，我对每个观察结果进行“散列”(变成字符串)。并将其用作我的表中的关键字。

浏览 14修改于2019-09-28得票数 1

1回答

具有重叠状态的Q-Learning优化

我正在为一个简单的任务实现Q学习，这涉及到机器人在连续坐标系中移动到目标位置。每一集都有一个固定的长度，并且奖励是稀疏的:对于剧集的最终过渡，只有一个奖励，奖励是机器人和目标之间最终距离的函数。我的问题是问题状态，其中两个事件重叠。如果我将我的过渡存储在重放缓冲区中，并对A集的过渡进行采样，则该动作的目标Q值将等于discount_factor x max_q(

浏览 1修改于2017-06-21得票数 1

2回答

Q-Learning和TD(λ)中的奖励

这两种RL技术中的奖励是如何工作的？我的意思是，他们都改善了政策和评估，但没有奖励。我怎么才能从一开始就猜到呢？

浏览 0提问于2012-01-10得票数 1

1回答

Q-Learning的泛化函数

我不得不在Q Learning上做一些工作，讲的是一个不得不在房子里搬家具的人(基本上就是这样)。如果房子足够小，我可以只有一个表示行动/奖励的矩阵，但随着房子变大，这是不够的。所以我不得不使用某种泛化函数来代替它。我的老师建议我不只使用一个，而是多个，这样我就可以比较它们，等等。你们推荐什么？谢谢

浏览 6修改于2010-05-22得票数 1

回答已采纳

1回答

Python Q-learning实现不起作用

""" therefore, the Q-learning

浏览 0修改于2019-12-06得票数 0

1回答

如何在Q-learning中计算MaxQ？

我正在实现Q学习，特别是Bellman方程。我使用的是指导他解决问题的的版本，但我有一个问题:对于maxQ，我是使用新状态(s')的所有Q表值(在我的例子中是4个可能的动作(a')，每个都有各自的值)还是采取动作(a')时所有位置的Q表值的总和来计算最大奖励？

浏览 12提问于2019-10-20得票数 4

回答已采纳

2回答

Q-Learning AI无法识别简单模式

我有一个Q-Learning程序，试图预测我的股票模拟股票市场，股票的价格是1-2-3-1-2-3…… 我已经试着调试这几天了，就是不能得到它。我甚至完全从头开始，这个问题仍然存在。

浏览 19修改于2019-12-22得票数 1

3回答

Q-learning和SARSA与贪婪选择是等价的吗？

如果使用贪婪选择策略，也就是说，动作值最高的动作被100%选择，那么SARSA和Q-learning是否相同？

浏览 7修改于2018-08-21得票数 9

回答已采纳

1回答

如何在使用Q-Learning时使用theano计算神经网络的梯度

我正在尝试使用一个标准的全连接神经网络作为Q-Learning中动作值的基础。我使用作为参考，特别是这一行：我想使用Q-Learning策略控制方法(如中所述

浏览 1提问于2016-04-02得票数 0

3回答

Q-learning和Value迭代有什么不同？

Q学习与强化学习中的值迭代有何不同？

浏览 2修改于2019-05-13得票数 35

回答已采纳

1回答

Keras代码错误- Q-learning OpenAI健身房FrozenLake

也许我的问题看起来很愚蠢。我的代码：import numpy as npfrom keras.models import Sequential%matplotlib inline env = gym.make('Froze

浏览 0修改于2017-08-26得票数 6

2回答

Q-learning，如何选择实际给予最大奖励的行动？

因此，在Q学习中，您可以通过Qnew(s，a) = Q(s，a) + alpha(r +γ*MaxQ(s‘，a) - Q(s，a) )来更新Q函数。当然，训练时间可能会增加，因为您实际上为每次更新都做了一次所有操作，但由于保证每次都选择最佳操作(探索时除外)，它最终会为您提供一个全局最优策略？

浏览 1提问于2018-06-08得票数 1

1回答

基于Q-Learning算法的SARSA在冰湖游戏中的实现

我正在使用Q-Learning和SARSA算法解决冰冻湖游戏。我有Q-Learning算法的代码实现，这是可行的。这段代码摘自Maxim Lapan的“深度强化学习实践”的第5章。我试图对这段代码进行修改，以实现SARSA而不是Q-Learning，但我不知道如何做到这一点。我研究过这两种算法，但对如何将它们转换为代码感到迷惑。我必须对此代码进行哪些更改才能实现SARSA？

浏览 206提问于2021-06-25得票数 1

1回答

我正在尝试基于我在网上找到的an implementation，在gym-minigrid环境中创建一个Q-learner。该实现工作得很好，但它使用了正常的Open AI Gym环境，该环境可以访问一些不存在的变量，或者不像健身房-迷你网格库那样以相同的方式呈现。例如，在"Taxi-v3“环境中，我可以使用env.s获取当前状态，并使用env.observation_space.n获取状态空间，但这两种方法在健身房-迷你网格中都不可用。这对我来说尤其具有挑战性，因为我不能简单地执行new_state, reward, done, info = env.step(action)并使

浏览 53提问于2021-01-11得票数 1

1回答

Q-learning，测试集计数对收敛的影响是什么？

main__": agent = Agent() writer = SummaryWriter(comment="-q-learning

浏览 13提问于2019-01-16得票数 1

第 2 页第 3 页第 4 页第 5 页

点击加载更多

为什么Q-learning在未知的环境中工作？

奖励值计算: Q-Learning

为什么Q-Learning是非策略学习？

使用Q-Learning算法的目的

如何将MinMax树与Q-Learning结合使用？

Q-learning模型没有改进

具有重叠状态的Q-Learning优化

Q-Learning和TD(λ)中的奖励

Q-Learning的泛化函数

Python Q-learning实现不起作用

如何在Q-learning中计算MaxQ？

Q-Learning AI无法识别简单模式

Q-learning和SARSA与贪婪选择是等价的吗？

如何在使用Q-Learning时使用theano计算神经网络的梯度

Q-learning和Value迭代有什么不同？

Keras代码错误- Q-learning OpenAI健身房FrozenLake

Q-learning，如何选择实际给予最大奖励的行动？

基于Q-Learning算法的SARSA在冰湖游戏中的实现

从健身房获取状态-迷你网格Q-learning

Q-learning，测试集计数对收敛的影响是什么？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐