首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Q-learning中计算MaxQ?

如何在Q-learning中计算MaxQ?
EN

Stack Overflow用户
提问于 2019-10-20 21:32:29
回答 1查看 553关注 0票数 4

我正在实现Q学习,特别是Bellman方程。

我使用的是指导他解决问题的website的版本,但我有一个问题:对于maxQ,我是使用新状态(s')的所有Q表值(在我的例子中是4个可能的动作(a'),每个都有各自的值)还是采取动作(a')时所有位置的Q表值的总和来计算最大奖励?

换句话说,我是使用我能采取的所有可能操作中的最高Q值,还是使用所有“相邻”方块的总和Q值?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-20 22:37:43

对于您可以采取的所有可能的操作,您总是使用最大Q值。

这个想法是选择下一个状态的Q值最大(最好)的动作,以便保持在最优策略Qpi*中。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58473521

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档