问Q-学习收敛到最优策略
EN

Stack Overflow用户

提问于 2014-04-15 08:50:58

回答 1查看 4.3K关注 0票数 5

我正在使用基于rlglue的python-rl框架进行Q学习.我的理解是，随着时间的推移，算法收敛到一个最优策略(这是一个映射，说明在什么状态下要采取什么行动)。

Question1:这是否意味着在经历了很多次(比如1000次或更多)之后，我基本上应该得到相同的状态:动作映射？

当我绘制奖励(或奖励平均超过100集)时，我得到了一个类似于此链接图6.13的图表。

Question2:如果算法已经收敛到某些策略，那么为什么奖励会下降呢？是否有可能报酬会有很大的差异？

Question3:有什么标准方法可以用来比较各种RL算法的结果吗？

回答已采纳

发布于 2014-04-15 09:12:50

Q1:它将收敛到单个映射，除非多个映射是最优的。

Q2: Q-Learning有一个探索参数，它决定采取随机、潜在的次优移动的频率。只要这个参数不是零，奖励就会波动。

Q3:奖励图，如您提供的链接。检查http://rl-community.org。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23078806

复制

相似问题

问Q-学习收敛到最优策略EN