文章/答案/技术大牛

发布

社区首页 >问答首页 >强化学习玩具项目

问强化学习玩具项目
EN

Stack Overflow用户

提问于 2010-05-17 00:12:44

回答 2查看 1.1K关注 0票数 3

我的玩具项目学习和应用强化学习是：

代理试图达到目标状态“安全”&“快速”.
但也有投射物和火箭在途中发射到代理人身上。
只有在火箭“接近”的情况下，才能确定火箭的位置-with noise。
然后经纪人必须学会，避免把撞到这些火箭上。
该代理具有-rechargable和time- 燃料，该燃料是在代理运动中消耗的。
连续动作：以角度加速前向转向

我需要一些适合这种情况的RL算法的提示和名字。

我认为这是POMDP，但我可以将其建模为MDP，而忽略噪声吗？
万一POMDP，推荐的评估概率的方法是什么？
在这种情况下，哪个更好:值函数还是策略迭代？
我可以用神经网络来模拟环境动力学而不是使用显式方程吗？
如果是，是否推荐一种特定类型/模型的NN？
我认为行动必须谨慎，对吗？

我知道学习这样一个话题需要时间和精力，但我渴望..。

如果你不能回答所有的问题，你可以回答其中的一些问题。

谢谢

machine-learning

neural-network

reinforcement-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-05-20 01:44:25

如果这是你在强化学习方面的第一次实验，我建议从一些比这简单得多的东西开始。你可以先简单地掌握事情的诀窍，然后转到一个更复杂的项目，比如这个项目。我在POMDP上遇到了麻烦，我已经在RL工作了很长一段时间。现在我试着回答我能回答的问题。

我认为它是POMDP，但我可以把它建模为MDP而忽略噪声吗？

是。POMDP代表部分可观测的马尔可夫决策过程。部分可观测的部分指的是，代理不能完全知道它的状态，而是可以根据观察来估计它。在你的情况下，你会得到火箭的位置作为一个观测，可能会有一些噪音，并根据代理人以前的知识，你可以更新它的信念，导弹在哪里。这就增加了很多复杂性。将导弹位置作为绝对使用将容易得多，而不必处理不确定性。这样你就不用使用POMDP了。

在POMDP情况下，推荐的概率评估方法是什么？

我不明白你的问题。你可以用某种形式的Bayes规则。也就是说，你会有某种分布，这是你的信念状态(处于任何给定状态的概率)，这是你的先验分布，基于观察，你会调整这个分布，得到一个后验分布。如果您需要更多信息，请查看Bayes规则。

在本例中哪个更适合使用:值函数还是策略迭代？

我的大部分经验都是使用价值函数，发现它们相对容易使用/理解。但我不知道还能告诉你什么。我认为这可能是你的选择，我将不得不花时间在这个项目上做一个更好的选择。

我可以用神经网络来模拟环境动力学而不是使用显式方程吗？如果是，是否推荐特定类型/模型的神经网络？

我不知道用NN来模拟环境，抱歉。

我认为行动必须谨慎，对吗？

是。你必须有一个离散的动作列表，和一个离散的状态列表。通常，该算法将为任何给定状态选择最佳操作，对于最简单的算法(如QLearning)，您只需跟踪每个给定状态-动作对的值。

如果你只是在学习所有这些东西，我会推荐萨顿和巴托文本。另外，如果您想看到一个RL算法的简单示例，我有一个非常简单的基类，并在github (用Python编写)上使用它。abstract_rl类是为RL任务扩展的，但是非常简单。simple_rl.py是一个简单任务的例子(它是一个简单的网格，目标是一个位置，它使用QLearning作为算法)，它使用可以运行的base_rl，并将打印一些随时间推移显示奖励的图表。两者都不是很复杂，但如果你刚刚开始，可能会有助于给你一些想法。希望这能帮上忙。如果你有更多或更具体的问题，请告诉我。

票数 7

Stack Overflow用户

发布于 2013-08-01 14:30:43

我可以用神经网络来模拟环境动力学而不是使用显式方程吗？如果是，是否推荐特定类型/模型的神经网络？

是的，众所周知，神经网络能够解决预测任务。然而，这取决于您如何定义任务:您希望您的算法只在它知道环境的动态性时才学会控制它，还是希望在未知的环境中学习解决该任务？后一种情况在RL中更为常见。

我认为行动必须谨慎，对吗？

不，他们不一定要这样。例如，Actor-批评者解决方案适用于连续的操作.我还听说过基于高斯过程的RL。关于这两种解决方案的大量材料很容易通过谷歌找到。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2846038

复制

相似问题

问强化学习玩具项目
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习玩具项目EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习玩具项目
EN