首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么要将马尔可夫性质引入强化学习?

为什么要将马尔可夫性质引入强化学习?
EN

Stack Overflow用户
提问于 2020-12-23 12:30:21
回答 2查看 71关注 0票数 0

作为深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用马尔可夫过程,以及它给强化学习带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度强化学习算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?

EN

回答 2

Stack Overflow用户

发布于 2021-01-01 17:25:07

在优化过程中,利用马尔可夫性质进行数学求解。但是,请记住,它比您可能认为的更普遍适用。例如,如果在某个棋盘游戏中,你需要知道游戏的最后三个状态,这可能看起来违反了马尔可夫属性;但是,如果你只是简单地将“状态”重新定义为最后三个状态的串联,那么现在你又回到了MDP中。

票数 2
EN

Stack Overflow用户

发布于 2021-01-19 22:58:23

这个假设说,当前状态给出了关于过去代理-环境迭代的所有方面所需的所有信息,这些信息对系统的未来产生了影响。这是一个重要的定义,因为您可以将过程的动态定义为p(s',r| s,a)。在实践中,您不需要查看和计算系统的所有先前状态来确定下一个可能的状态。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65419055

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档