如果Q-学习代理在包含中间奖励的特定纸牌游戏中对对手的表现明显优于对手,这是算法中的缺陷还是其实现上的缺陷?
发布于 2019-01-18 08:55:57
如果没有关于Q-学习代理的更具体信息,就很难回答这个问题。你可以把对即时回报的追求说成是开采率,这通常与勘探率成反比。应该可以在您的实现中配置这个和学习速率。另一个重要的因素是勘探策略的选择,你不应该有任何困难,找到资源将有助于作出这一选择。例如:
QLearning.pdf
https://www.cs.mcgill.ca/~vkules/bandits.pdf
要直接回答这个问题,可能是一个实现、配置、agent体系结构或学习策略的问题,从而导致立即开发和固定局部极小值。
https://stackoverflow.com/questions/53622782
复制相似问题