问Q-学习中级奖励
EN

Stack Overflow用户

提问于 2018-12-04 23:10:50

回答 1查看 125关注 0票数 1

如果Q-学习代理在包含中间奖励的特定纸牌游戏中对对手的表现明显优于对手，这是算法中的缺陷还是其实现上的缺陷？

回答已采纳

发布于 2019-01-18 08:55:57

如果没有关于Q-学习代理的更具体信息，就很难回答这个问题。你可以把对即时回报的追求说成是开采率，这通常与勘探率成反比。应该可以在您的实现中配置这个和学习速率。另一个重要的因素是勘探策略的选择，你不应该有任何困难，找到资源将有助于作出这一选择。例如：

QLearning.pdf

要直接回答这个问题，可能是一个实现、配置、agent体系结构或学习策略的问题，从而导致立即开发和固定局部极小值。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53622782

复制

相似问题

问Q-学习中级奖励EN