首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >MDP和RL之间有什么关系?

MDP和RL之间有什么关系?
EN

Data Science用户
提问于 2018-09-27 00:33:32
回答 1查看 8.9K关注 0票数 4

马尔可夫决策过程与强化学习的关系是什么?

我们可以说RL和DP是两种MDP吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-09-27 06:55:35

马尔可夫决策过程与强化学习的关系是什么?

在强化学习中,需要解决的问题被描述为一个马尔可夫决策过程。RL的理论结果依赖于MDP描述与问题的正确匹配。如果您的问题被很好地描述为MDP,那么RL可能是一个很好的框架来寻找解决方案。这并不意味着您需要完全描述MDP (所有的转换概率),只是希望能够创建或发现MDP模型。

相反,如果您不能将问题映射到MDP上,那么RL背后的理论无法保证任何有用的结果。

影响RL工作效果的一个关键因素是,状态应该有马尔可夫性质 --当前状态的值是足够的知识,可以在行动选择之后修复即时过渡概率和即时奖励。再说一遍,你不需要事先知道这些是什么,只是希望这种关系是可靠和稳定的。如果它不可靠,您可能有一个POMDP。如果它不稳定,你可能会有一个非平稳的问题。在这两种情况下,如果与更严格定义的MDP的差别足够小,您可能仍然可以使用RL技术,或者需要稍微调整它们。

我们可以说RL和DP是两种MDP吗?

我假设"DP“是指动态规划,在强化学习中可以看到两个变体:策略迭代和值迭代。

在这种情况下,你的问题的答案是“否”。我要说的是,以下关系是正确的:

  • DP是RL的一种类型。更具体地说,它是一种基于值的、基于模型的、引导和退出策略的算法.所有这些特征都是不同的。
    • DP的“对立面”可能是增强,即策略梯度,无模型,不引导,而且是启动策略。DP方法和增强方法都被认为是强化学习方法。

  • DP要求您充分描述MDP,并使用已知的转换概率和奖励分布,这是DP算法使用的。所以它才是以模型为基础的。
  • RL和MDP之间的一般关系是RL是一个解决问题的框架,可以用MDP来表示。
票数 7
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/38845

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档