我正在使用基于rlglue的python-rl框架进行Q学习.我的理解是,随着时间的推移,算法收敛到一个最优策略(这是一个映射,说明在什么状态下要采取什么行动)。
Question1:这是否意味着在经历了很多次(比如1000次或更多)之后,我基本上应该得到相同的状态:动作映射?
当我绘制奖励(或奖励平均超过100集)时,我得到了一个类似于此链接图6.13的图表。
Question2:如果算法已经收敛到某些策略,那么为什么奖励会下降呢?是否有可能报酬会有很大的差异?
Question3:有什么标准方法可以用来比较各种RL算法的结果吗?
发布于 2014-04-15 09:12:50
Q1:它将收敛到单个映射,除非多个映射是最优的。
Q2: Q-Learning有一个探索参数,它决定采取随机、潜在的次优移动的频率。只要这个参数不是零,奖励就会波动。
Q3:奖励图,如您提供的链接。检查http://rl-community.org。
https://stackoverflow.com/questions/23078806
复制相似问题