我找到了一个非常简单的例子来解释Q学习的这资源。把它变成一个二维问题,一个矩形而不是一条线,它仍然很简单。唯一的区别是,现在有两个可能的行动(上下)。
我的问题是:如果长方形的长度和高度是随机的,以及宝物的起始位置和位置,那么机器人如何将所获得的知识应用到新的问题上?对于具有动态状态的问题,有一个进化的Q学习版本吗?
发布于 2019-05-05 08:36:20
如果长方形的长度和高度是随机的,以及宝物的起始位置和位置,那么机器人如何将所获得的知识应用到新的问题上?
这里有两种可能的方法,取决于问题是如何呈现给您的:
对于一个玩具问题,关键位置可以改变,但这仍然可以通过列表代理很容易解决,请参阅开放AI的出租车-V2,这是一个经典控制问题的实现,其中的子目标和目标的位置是随机的在每一集。
https://datascience.stackexchange.com/questions/51402
复制相似问题