问如果每一次，所有可能的状态都会发生变化，那么Q-学习如何“学习”任何东西？
EN

Data Science用户

提问于 2019-05-04 21:40:19

回答 1查看 34关注 0票数 2

我找到了一个非常简单的例子来解释Q学习的这资源。把它变成一个二维问题，一个矩形而不是一条线，它仍然很简单。唯一的区别是，现在有两个可能的行动(上下)。

我的问题是:如果长方形的长度和高度是随机的，以及宝物的起始位置和位置，那么机器人如何将所获得的知识应用到新的问题上？对于具有动态状态的问题，有一个进化的Q学习版本吗？

回答已采纳

发布于 2019-05-05 08:36:20

如果长方形的长度和高度是随机的，以及宝物的起始位置和位置，那么机器人如何将所获得的知识应用到新的问题上？

这里有两种可能的方法，取决于问题是如何呈现给您的：

如果代理有时间分别学习/计划每个环境，那么您需要一个能够学习每个环境的代理。一个简单的表格式Q-学习代理已经具备了这种能力，达到一定规模的问题(其中的状态和动作的数量将适合在内存中，并可以反复模拟足够的次数)。除了这个大小之外，如果您可以提出一个固定的特征集来表示agent可以呈现的任何形状和大小的问题，并使用DQN或其他近似技术，那么您仍然有一个通用的学习机器人。
在训练过程中，为了解决有变化的新实例而推广的机器人需要使用许多变体和更多的状态数据进行训练。如果迷宫的形状、大小和布局在剧集之间发生变化，那么这些数据必须成为状态的一部分。这可以大大扩展状态空间，并且需要不同的表示形式。网格空间的简单表示将是网格的实际映射为矩形“图像”，假设代理开始、墙壁和目标位置几乎可以在空间内的任何地方。如果迷宫有很多物体，那么你可以把每一种物体类型放在一个单独的“通道”中，并使用卷积神经网络作为Q函数近似的一部分。如果区域比较稀疏，只有几个对象(例如，代理、单个拦截器和宝藏)，那么使用对象位置的直接矢量表示和使用完全连接的神经网络就更容易了。

对于一个玩具问题，关键位置可以改变，但这仍然可以通过列表代理很容易解决，请参阅开放AI的出租车-V2，这是一个经典控制问题的实现，其中的子目标和目标的位置是随机的在每一集。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/51402

复制

相似问题

问如果每一次，所有可能的状态都会发生变化，那么Q-学习如何“学习”任何东西？EN