首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习玩具项目

强化学习玩具项目
EN

Stack Overflow用户
提问于 2010-05-17 00:12:44
回答 2查看 1.1K关注 0票数 3

我的玩具项目学习和应用强化学习是:

  • 代理试图达到目标状态“安全”&“快速”.
  • 但也有投射物和火箭在途中发射到代理人身上。
  • 只有在火箭“接近”的情况下,才能确定火箭的位置-with noise
  • 然后经纪人必须学会,避免把撞到这些火箭上。
  • 该代理具有-rechargable和time- 燃料,该燃料是在代理运动中消耗的。
  • 连续动作:以角度加速前向转向

我需要一些适合这种情况的RL算法的提示和名字。

  • 我认为这是POMDP,但我可以将其建模为MDP,而忽略噪声吗?
  • 万一POMDP,推荐的评估概率的方法是什么?
  • 在这种情况下,哪个更好:值函数还是策略迭代?
  • 我可以用神经网络来模拟环境动力学而不是使用显式方程吗?
  • 如果是,是否推荐一种特定类型/模型的NN?
  • 我认为行动必须谨慎,对吗?

我知道学习这样一个话题需要时间和精力,但我渴望..。

如果你不能回答所有的问题,你可以回答其中的一些问题。

谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-05-20 01:44:25

如果这是你在强化学习方面的第一次实验,我建议从一些比这简单得多的东西开始。你可以先简单地掌握事情的诀窍,然后转到一个更复杂的项目,比如这个项目。我在POMDP上遇到了麻烦,我已经在RL工作了很长一段时间。现在我试着回答我能回答的问题。

我认为它是POMDP,但我可以把它建模为MDP而忽略噪声吗?

是。POMDP代表部分可观测的马尔可夫决策过程。部分可观测的部分指的是,代理不能完全知道它的状态,而是可以根据观察来估计它。在你的情况下,你会得到火箭的位置作为一个观测,可能会有一些噪音,并根据代理人以前的知识,你可以更新它的信念,导弹在哪里。这就增加了很多复杂性。将导弹位置作为绝对使用将容易得多,而不必处理不确定性。这样你就不用使用POMDP了。

在POMDP情况下,推荐的概率评估方法是什么?

我不明白你的问题。你可以用某种形式的Bayes规则。也就是说,你会有某种分布,这是你的信念状态(处于任何给定状态的概率),这是你的先验分布,基于观察,你会调整这个分布,得到一个后验分布。如果您需要更多信息,请查看Bayes规则。

在本例中哪个更适合使用:值函数还是策略迭代?

我的大部分经验都是使用价值函数,发现它们相对容易使用/理解。但我不知道还能告诉你什么。我认为这可能是你的选择,我将不得不花时间在这个项目上做一个更好的选择。

我可以用神经网络来模拟环境动力学而不是使用显式方程吗?如果是,是否推荐特定类型/模型的神经网络?

我不知道用NN来模拟环境,抱歉。

我认为行动必须谨慎,对吗?

是。你必须有一个离散的动作列表,和一个离散的状态列表。通常,该算法将为任何给定状态选择最佳操作,对于最简单的算法(如QLearning),您只需跟踪每个给定状态-动作对的值。

如果你只是在学习所有这些东西,我会推荐萨顿和巴托文本。另外,如果您想看到一个RL算法的简单示例,我有一个非常简单的基类,并在github (用Python编写)上使用它。abstract_rl类是为RL任务扩展的,但是非常简单。simple_rl.py是一个简单任务的例子(它是一个简单的网格,目标是一个位置,它使用QLearning作为算法),它使用可以运行的base_rl,并将打印一些随时间推移显示奖励的图表。两者都不是很复杂,但如果你刚刚开始,可能会有助于给你一些想法。希望这能帮上忙。如果你有更多或更具体的问题,请告诉我。

票数 7
EN

Stack Overflow用户

发布于 2013-08-01 14:30:43

我可以用神经网络来模拟环境动力学而不是使用显式方程吗?如果是,是否推荐特定类型/模型的神经网络?

是的,众所周知,神经网络能够解决预测任务。然而,这取决于您如何定义任务:您希望您的算法只在它知道环境的动态性时才学会控制它,还是希望在未知的环境中学习解决该任务?后一种情况在RL中更为常见。

我认为行动必须谨慎,对吗?

不,他们不一定要这样。例如,Actor-批评者解决方案适用于连续的操作.我还听说过基于高斯过程的RL。关于这两种解决方案的大量材料很容易通过谷歌找到。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2846038

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档