文章/答案/技术大牛

发布

社区首页 >问答首页 >MDP和RL之间有什么关系？

问MDP和RL之间有什么关系？
EN

Data Science用户

提问于 2018-09-27 00:33:32

回答 1查看 8.9K关注 0票数 4

马尔可夫决策过程与强化学习的关系是什么？

我们可以说RL和DP是两种MDP吗？

markov-process

reinforcement-learning

回答 1

Data Science用户

回答已采纳

发布于 2018-09-27 06:55:35

马尔可夫决策过程与强化学习的关系是什么？

在强化学习中，需要解决的问题被描述为一个马尔可夫决策过程。RL的理论结果依赖于MDP描述与问题的正确匹配。如果您的问题被很好地描述为MDP，那么RL可能是一个很好的框架来寻找解决方案。这并不意味着您需要完全描述MDP (所有的转换概率)，只是希望能够创建或发现MDP模型。

相反，如果您不能将问题映射到MDP上，那么RL背后的理论无法保证任何有用的结果。

影响RL工作效果的一个关键因素是，状态应该有马尔可夫性质 --当前状态的值是足够的知识，可以在行动选择之后修复即时过渡概率和即时奖励。再说一遍，你不需要事先知道这些是什么，只是希望这种关系是可靠和稳定的。如果它不可靠，您可能有一个POMDP。如果它不稳定，你可能会有一个非平稳的问题。在这两种情况下，如果与更严格定义的MDP的差别足够小，您可能仍然可以使用RL技术，或者需要稍微调整它们。

我们可以说RL和DP是两种MDP吗？

我假设"DP“是指动态规划，在强化学习中可以看到两个变体:策略迭代和值迭代。

在这种情况下，你的问题的答案是“否”。我要说的是，以下关系是正确的：

DP是RL的一种类型。更具体地说，它是一种基于值的、基于模型的、引导和退出策略的算法.所有这些特征都是不同的。
- DP的“对立面”可能是增强，即策略梯度，无模型，不引导，而且是启动策略。DP方法和增强方法都被认为是强化学习方法。
DP要求您充分描述MDP，并使用已知的转换概率和奖励分布，这是DP算法使用的。所以它才是以模型为基础的。
RL和MDP之间的一般关系是RL是一个解决问题的框架，可以用MDP来表示。

票数 7

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/38845

复制

相似问题

问MDP和RL之间有什么关系？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MDP和RL之间有什么关系？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MDP和RL之间有什么关系？
EN