搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

SARSA实现

我正在学习SARSA算法的实现，并有一个问题。据我了解，一般的“学习”步骤采取的形式是：我想，总的来说，我的问题归结为是什么使SARSA比另一种呼吸优先或深度优先搜索算法更好？

浏览 5提问于2015-04-26得票数 3

回答已采纳

2回答

SARSA中包含的转移概率

我正在C++中实现SARSA(lambda)模型，以克服DP模型的一些限制(纯粹的时间和空间DP模型所需的时间和空间)，这有望减少计算时间(类似的研究需要花费相当长的时间)，而更少的空间将为模型增加更多的复杂性那么，我们应该如何将它们合并到SARSA模型中呢？PS-是否有一种方法可以知道算法是否得到了适当的实现？第一次与SARSA合作。

浏览 6修改于2018-12-23得票数 1

回答已采纳

1回答

使用tensorflow实现SARSA

因此，我尝试使用tensorflow为cart pole示例实现SARSA算法。我将我的算法与对Q值函数使用线性逼近函数的算法进行了比较，发现我的算法非常相似。

浏览 15提问于2020-12-09得票数 0

1回答

在Unity中实现SARSA

但是，我也在尝试实现SARSA as来测试这两种算法。我知道Q-learning是非策略的，而SARSA是on-policy的，这意味着我必须实现一个策略来获取下一个操作，而不是简单地调用然而，这一点的实际实现让我感到困惑

浏览 4修改于2018-06-08得票数 0

1回答

利用梯度梯度实现SARSA

我已经成功地实现了SARSA算法(包括一步和使用资格跟踪)使用表查找。本质上，我有一个Q值矩阵，其中每一行对应一个状态，每列对应一个动作。[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]dw = dw_old + learning_rate*(reward + discount*network_output - dw_old) (摘自SARSA

浏览 2修改于2015-05-03得票数 1

回答已采纳

1回答

SARSA的Zeta变量(Lamda)

zeta在critic方法中代表了什么？我相信它会跟踪状态-动作对并代表资格痕迹，这是状态-动作的临时记录，但是zeta到底代表什么，它在c++中是什么样子(例如，双精度向量)？

浏览 6修改于2020-06-20得票数 0

3回答

Q-learning和SARSA与贪婪选择是等价的吗？

Q学习和SARSA之间的区别在于，Q学习将当前状态与最佳可能的下一状态进行比较，而SARSA将当前状态与实际下一状态进行比较。如果使用贪婪选择策略，也就是说，动作值最高的动作被100%选择，那么SARSA和Q-learning是否相同？

浏览 7修改于2018-08-21得票数 9

回答已采纳

1回答

如何计算SARSA的资格跟踪？

我正在尝试实现资格跟踪(前瞻性)，它的伪代码可以在下面的图像中找到我不知道For all s, a是什么意思(从下面第5行)。他们从哪里得到的s, a集合？你是否调整了每一个e(s, a)

浏览 2修改于2018-08-20得票数 1

回答已采纳

3回答

增强学习中的SARSA算法

我在无模型强化学习中遇到了SARSA算法.具体来说，在每个状态中，您将采取一个操作a，然后观察一个新的状态s'。

浏览 4修改于2018-05-16得票数 0

回答已采纳

1回答

不同epsilon值对Q-学习和SARSA的影响

由于我是这一领域的一个开端，我对不同的epsilon值将如何影响SARSA和epsilon贪婪算法的行为选择之间的效果有疑问。据我所知，当epsilon等于0时，总是根据Q导出的策略选择动作，因此，Q学习首先更新Q，然后根据更新Q选择下一个动作，SARSA选择下一个动作和更新Q之后的动作。当ε等于1时怎么样？

浏览 4修改于2015-11-17得票数 2

回答已采纳

1回答

Sarsa算法，为什么q值趋于零？

我正在尝试从OpenAI健身房实现解决冰冻湖环境的Sarsa算法。我很快就开始处理这个问题了，但我想我明白了。我也知道Sarsa算法是如何工作的，有很多地方可以找到伪码，我明白了。

浏览 4提问于2016-10-12得票数 3

回答已采纳

1回答

为什么没有DQN而没有深度Sarsa？

为什么DQN经常使用，而几乎没有发生深萨萨？我发现这篇论文https://arxiv.org/pdf/1702.03118.pdf使用它，但没有其他可能相关的。我认为原因可能是Ape-X架构，它出现在Deep论文之后的一年，并允许为非策略算法产生大量的经验。这是有意义的，还是他们的其他原因？

浏览 0提问于2022-05-10得票数 0

回答已采纳

1回答

澄清我对在线策略RL (在线SARSA)的理解

我想澄清一下，我已经理解了SARSA是如何在细微差别中工作的。考虑使用CONNECTIONIST系统从在线Q学习中提取的原始定义。作者声明: G. A. Rummery & M.NiranjanCUED/F-INFENG/TR 1661994年9月(根据维基百科的一篇文章，这是SARSA wss提到的第一份出版物)。(引自第6页)begin initialize Q[S,

浏览 0修改于2018-02-02得票数 1

回答已采纳

0回答

手推车杆柱的SARSA值逼近

我有一个关于 SARSA的问题。

浏览 6修改于2018-07-19得票数 3

1回答

基于神经网络的幕式半梯度Sarsa

在尝试实现Episodic Semi-gradient Sarsa with神经网络作为逼近器时，我想知道如何根据当前学习到的网络权重来选择最优动作。

浏览 6修改于2017-07-28得票数 6

回答已采纳

1回答

SARSA-Lambda实现中各集之间的资格跟踪重新初始化

我看这个SARSA-Lambda实现(即: SARSA与资格跟踪)，有一个细节，我仍然没有得到。

浏览 3修改于2015-05-03得票数 17

回答已采纳

1回答

如何在R程序中获得网格世界模型的SARSA代码？

O,X,O] [O,X,O,X,O,X,O]所以我想知道如何纠正这个网格世界模型的代码(而不是uppon代码)，并想知道如何通过SARSA

浏览 6修改于2016-12-14得票数 2

1回答

基于神经网络的Sarsa算法解决山地车任务

我正在尝试实现情景半梯度Sarsa来估计Q，在Sutton的书中描述了to solve the Mountain Car Task。为了近似计算q，我想使用一个neural network。

浏览 9提问于2017-07-29得票数 2

回答已采纳

1回答

基于Q-Learning算法的SARSA在冰湖游戏中的实现

我正在使用Q-Learning和SARSA算法解决冰冻湖游戏。我有Q-Learning算法的代码实现，这是可行的。这段代码摘自Maxim Lapan的“深度强化学习实践”的第5章。我试图对这段代码进行修改，以实现SARSA而不是Q-Learning，但我不知道如何做到这一点。我研究过这两种算法，但对如何将它们转换为代码感到迷惑。我必须对此代码进行哪些更改才能实现SARSA？

浏览 206提问于2021-06-25得票数 1

1回答

即使在每一集中，当epsilon发生变化时，Sarsa仍然收敛吗？

我使用n步Sarsa/有时Sarsa(lambda) 在对不同的epsilon时间表进行了一些实验之后，我发现当我在一集中改变epsilon时，根据已经采取的步骤的数量和最后10集的平均长度，代理学得更快

浏览 0修改于2018-04-07得票数 2

回答已采纳

第 2 页第 3 页第 4 页

点击加载更多

SARSA实现

SARSA中包含的转移概率

使用tensorflow实现SARSA

在Unity中实现SARSA

利用梯度梯度实现SARSA

SARSA的Zeta变量(Lamda)

Q-learning和SARSA与贪婪选择是等价的吗？

如何计算SARSA的资格跟踪？

增强学习中的SARSA算法

不同epsilon值对Q-学习和SARSA的影响

Sarsa算法，为什么q值趋于零？

为什么没有DQN而没有深度Sarsa？

澄清我对在线策略RL (在线SARSA)的理解

手推车杆柱的SARSA值逼近

基于神经网络的幕式半梯度Sarsa

SARSA-Lambda实现中各集之间的资格跟踪重新初始化

如何在R程序中获得网格世界模型的SARSA代码？

基于神经网络的Sarsa算法解决山地车任务

基于Q-Learning算法的SARSA在冰湖游戏中的实现

即使在每一集中，当epsilon发生变化时，Sarsa仍然收敛吗？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐