我从概念上理解它。你有一个代理和一个环境。然后你有一组状态,每个状态都有一个值。然后,智能体要么选择“探索”,要么选择“利用”,并根据发生的事情修改其知识。
我的问题是,我似乎不知道如何将它实际应用于代码或任何实际问题。每次我查一查,我只得到同样的几个方程式,没有解释如何使用它们。
我正在试着为俄罗斯方块写一个RL代理,但我似乎找不到答案。如果有人能用ELI5就好了。
我怎么知道把什么作为状态呢?那么动作呢?调整值所涉及的实际数学运算是什么?这一切都太让人困惑了。
如果有人能帮我,我会很感激的。谢谢:)
发布于 2013-11-13 04:58:51
强化学习是在你不知道正确答案的情况下使用的,但给出一个答案很容易判断它是正确的还是错误的。
在有限或平滑的连续状态空间中查找问题,如直升机控制。在这个特定的示例中,您可以使用简化的物理模拟来教智能体如何执行任务,而不需要向其灌输明确的规则。
如果你在谷歌上搜索俄罗斯方块强化学习的应用,你会发现很多关于这个主题的文章。
要理解状态、动作等是由什么构成的,请阅读Sutton和Barton的“强化学习”。你可以在网上免费找到它。
https://stackoverflow.com/questions/19939439
复制相似问题