腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(62)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
SARSA
实现
我正在学习
SARSA
算法的实现,并有一个问题。据我了解,一般的“学习”步骤采取的形式是:我想,总的来说,我的问题归结为是什么使
SARSA
比另一种呼吸优先或深度优先搜索算法更好?
浏览 5
提问于2015-04-26
得票数 3
回答已采纳
2
回答
SARSA
中包含的转移概率
我正在C++中实现
SARSA
(lambda)模型,以克服DP模型的一些限制(纯粹的时间和空间DP模型所需的时间和空间),这有望减少计算时间(类似的研究需要花费相当长的时间),而更少的空间将为模型增加更多的复杂性那么,我们应该如何将它们合并到
SARSA
模型中呢?PS-是否有一种方法可以知道算法是否得到了适当的实现?第一次与
SARSA
合作。
浏览 6
修改于2018-12-23
得票数 1
回答已采纳
1
回答
使用tensorflow实现
SARSA
因此,我尝试使用tensorflow为cart pole示例实现
SARSA
算法。我将我的算法与对Q值函数使用线性逼近函数的算法进行了比较,发现我的算法非常相似。
浏览 15
提问于2020-12-09
得票数 0
1
回答
在Unity中实现
SARSA
但是,我也在尝试实现
SARSA
as来测试这两种算法。我知道Q-learning是非策略的,而
SARSA
是on-policy的,这意味着我必须实现一个策略来获取下一个操作,而不是简单地调用然而,这一点的实际实现让我感到困惑
浏览 4
修改于2018-06-08
得票数 0
1
回答
利用梯度梯度实现
SARSA
我已经成功地实现了
SARSA
算法(包括一步和使用资格跟踪)使用表查找。本质上,我有一个Q值矩阵,其中每一行对应一个状态,每列对应一个动作。[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]dw = dw_old + learning_rate*(reward + discount*network_output - dw_old) (摘自
SARSA
浏览 2
修改于2015-05-03
得票数 1
回答已采纳
1
回答
SARSA
的Zeta变量(Lamda)
zeta在critic方法中代表了什么?我相信它会跟踪状态-动作对并代表资格痕迹,这是状态-动作的临时记录,但是zeta到底代表什么,它在c++中是什么样子(例如,双精度向量)?
浏览 6
修改于2020-06-20
得票数 0
3
回答
Q-learning和
SARSA
与贪婪选择是等价的吗?
Q学习和
SARSA
之间的区别在于,Q学习将当前状态与最佳可能的下一状态进行比较,而
SARSA
将当前状态与实际下一状态进行比较。如果使用贪婪选择策略,也就是说,动作值最高的动作被100%选择,那么
SARSA
和Q-learning是否相同?
浏览 7
修改于2018-08-21
得票数 9
回答已采纳
1
回答
如何计算
SARSA
的资格跟踪?
我正在尝试实现资格跟踪(前瞻性),它的伪代码可以在下面的图像中找到我不知道For all s, a是什么意思(从下面第5行)。他们从哪里得到的s, a集合?你是否调整了每一个e(s, a)
浏览 2
修改于2018-08-20
得票数 1
回答已采纳
3
回答
增强学习中的
SARSA
算法
我在无模型强化学习中遇到了
SARSA
算法.具体来说,在每个状态中,您将采取一个操作a,然后观察一个新的状态s'。
浏览 4
修改于2018-05-16
得票数 0
回答已采纳
1
回答
不同epsilon值对Q-学习和
SARSA
的影响
由于我是这一领域的一个开端,我对不同的epsilon值将如何影响
SARSA
和epsilon贪婪算法的行为选择之间的效果有疑问。据我所知,当epsilon等于0时,总是根据Q导出的策略选择动作,因此,Q学习首先更新Q,然后根据更新Q选择下一个动作,
SARSA
选择下一个动作和更新Q之后的动作。 当ε等于1时怎么样?
浏览 4
修改于2015-11-17
得票数 2
回答已采纳
1
回答
Sarsa
算法,为什么q值趋于零?
我正在尝试从OpenAI健身房实现解决冰冻湖环境的
Sarsa
算法。我很快就开始处理这个问题了,但我想我明白了。 我也知道
Sarsa
算法是如何工作的,有很多地方可以找到伪码,我明白了。
浏览 4
提问于2016-10-12
得票数 3
回答已采纳
1
回答
为什么没有DQN而没有深度
Sarsa
?
为什么DQN经常使用,而几乎没有发生深萨萨?我发现这篇论文https://arxiv.org/pdf/1702.03118.pdf使用它,但没有其他可能相关的。我认为原因可能是Ape-X架构,它出现在Deep论文之后的一年,并允许为非策略算法产生大量的经验。这是有意义的,还是他们的其他原因?
浏览 0
提问于2022-05-10
得票数 0
回答已采纳
1
回答
澄清我对在线策略RL (在线
SARSA
)的理解
我想澄清一下,我已经理解了
SARSA
是如何在细微差别中工作的。考虑使用CONNECTIONIST系统从在线Q学习中提取的原始定义。作者声明: G. A. Rummery & M.NiranjanCUED/F-INFENG/TR 1661994年9月(根据维基百科的一篇文章,这是
SARSA
wss提到的第一份出版物)。(引自第6页)begin initialize Q[S,
浏览 0
修改于2018-02-02
得票数 1
回答已采纳
0
回答
手推车杆柱的
SARSA
值逼近
我有一个关于
SARSA
的问题。
浏览 6
修改于2018-07-19
得票数 3
1
回答
基于神经网络的幕式半梯度
Sarsa
在尝试实现Episodic Semi-gradient
Sarsa
with神经网络作为逼近器时,我想知道如何根据当前学习到的网络权重来选择最优动作。
浏览 6
修改于2017-07-28
得票数 6
回答已采纳
1
回答
SARSA
-Lambda实现中各集之间的资格跟踪重新初始化
我看这个
SARSA
-Lambda实现(即:
SARSA
与资格跟踪),有一个细节,我仍然没有得到。
浏览 3
修改于2015-05-03
得票数 17
回答已采纳
1
回答
如何在R程序中获得网格世界模型的
SARSA
代码?
O,X,O] [O,X,O,X,O,X,O]所以我想知道如何纠正这个网格世界模型的代码(而不是uppon代码),并想知道如何通过
SARSA
浏览 6
修改于2016-12-14
得票数 2
1
回答
基于神经网络的
Sarsa
算法解决山地车任务
我正在尝试实现情景半梯度
Sarsa
来估计Q,在Sutton的书中描述了to solve the Mountain Car Task。为了近似计算q,我想使用一个neural network。
浏览 9
提问于2017-07-29
得票数 2
回答已采纳
1
回答
基于Q-Learning算法的
SARSA
在冰湖游戏中的实现
我正在使用Q-Learning和
SARSA
算法解决冰冻湖游戏。我有Q-Learning算法的代码实现,这是可行的。这段代码摘自Maxim Lapan的“深度强化学习实践”的第5章。我试图对这段代码进行修改,以实现
SARSA
而不是Q-Learning,但我不知道如何做到这一点。我研究过这两种算法,但对如何将它们转换为代码感到迷惑。我必须对此代码进行哪些更改才能实现
SARSA
?
浏览 206
提问于2021-06-25
得票数 1
1
回答
即使在每一集中,当epsilon发生变化时,
Sarsa
仍然收敛吗?
我使用n步
Sarsa
/有时
Sarsa
(lambda) 在对不同的epsilon时间表进行了一些实验之后,我发现当我在一集中改变epsilon时,根据已经采取的步骤的数量和最后10集的平均长度,代理学得更快
浏览 0
修改于2018-04-07
得票数 2
回答已采纳
第 2 页
第 3 页
第 4 页
点击加载更多
领券