作为深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用马尔可夫过程,以及它给强化学习带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度强化学习算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?
发布于 2021-01-01 17:25:07
在优化过程中,利用马尔可夫性质进行数学求解。但是,请记住,它比您可能认为的更普遍适用。例如,如果在某个棋盘游戏中,你需要知道游戏的最后三个状态,这可能看起来违反了马尔可夫属性;但是,如果你只是简单地将“状态”重新定义为最后三个状态的串联,那么现在你又回到了MDP中。
发布于 2021-01-19 22:58:23
这个假设说,当前状态给出了关于过去代理-环境迭代的所有方面所需的所有信息,这些信息对系统的未来产生了影响。这是一个重要的定义,因为您可以将过程的动态定义为p(s',r| s,a)。在实践中,您不需要查看和计算系统的所有先前状态来确定下一个可能的状态。
https://stackoverflow.com/questions/65419055
复制相似问题