我的玩具项目学习和应用强化学习是:
我需要一些适合这种情况的RL算法的提示和名字。
我知道学习这样一个话题需要时间和精力,但我渴望..。
如果你不能回答所有的问题,你可以回答其中的一些问题。
谢谢
发布于 2010-05-20 01:44:25
如果这是你在强化学习方面的第一次实验,我建议从一些比这简单得多的东西开始。你可以先简单地掌握事情的诀窍,然后转到一个更复杂的项目,比如这个项目。我在POMDP上遇到了麻烦,我已经在RL工作了很长一段时间。现在我试着回答我能回答的问题。
我认为它是POMDP,但我可以把它建模为MDP而忽略噪声吗?
是。POMDP代表部分可观测的马尔可夫决策过程。部分可观测的部分指的是,代理不能完全知道它的状态,而是可以根据观察来估计它。在你的情况下,你会得到火箭的位置作为一个观测,可能会有一些噪音,并根据代理人以前的知识,你可以更新它的信念,导弹在哪里。这就增加了很多复杂性。将导弹位置作为绝对使用将容易得多,而不必处理不确定性。这样你就不用使用POMDP了。
在POMDP情况下,推荐的概率评估方法是什么?
我不明白你的问题。你可以用某种形式的Bayes规则。也就是说,你会有某种分布,这是你的信念状态(处于任何给定状态的概率),这是你的先验分布,基于观察,你会调整这个分布,得到一个后验分布。如果您需要更多信息,请查看Bayes规则。
在本例中哪个更适合使用:值函数还是策略迭代?
我的大部分经验都是使用价值函数,发现它们相对容易使用/理解。但我不知道还能告诉你什么。我认为这可能是你的选择,我将不得不花时间在这个项目上做一个更好的选择。
我可以用神经网络来模拟环境动力学而不是使用显式方程吗?如果是,是否推荐特定类型/模型的神经网络?
我不知道用NN来模拟环境,抱歉。
我认为行动必须谨慎,对吗?
是。你必须有一个离散的动作列表,和一个离散的状态列表。通常,该算法将为任何给定状态选择最佳操作,对于最简单的算法(如QLearning),您只需跟踪每个给定状态-动作对的值。
如果你只是在学习所有这些东西,我会推荐萨顿和巴托文本。另外,如果您想看到一个RL算法的简单示例,我有一个非常简单的基类,并在github (用Python编写)上使用它。abstract_rl类是为RL任务扩展的,但是非常简单。simple_rl.py是一个简单任务的例子(它是一个简单的网格,目标是一个位置,它使用QLearning作为算法),它使用可以运行的base_rl,并将打印一些随时间推移显示奖励的图表。两者都不是很复杂,但如果你刚刚开始,可能会有助于给你一些想法。希望这能帮上忙。如果你有更多或更具体的问题,请告诉我。
发布于 2013-08-01 14:30:43
我可以用神经网络来模拟环境动力学而不是使用显式方程吗?如果是,是否推荐特定类型/模型的神经网络?
是的,众所周知,神经网络能够解决预测任务。然而,这取决于您如何定义任务:您希望您的算法只在它知道环境的动态性时才学会控制它,还是希望在未知的环境中学习解决该任务?后一种情况在RL中更为常见。
我认为行动必须谨慎,对吗?
不,他们不一定要这样。例如,Actor-批评者解决方案适用于连续的操作.我还听说过基于高斯过程的RL。关于这两种解决方案的大量材料很容易通过谷歌找到。
https://stackoverflow.com/questions/2846038
复制相似问题