RL算法是一种通用的MDP求解器算法--它们可以了解状态、动作和可能的下一个状态之间的关系，并在给定当前状态时通过可能的时间步骤来优化长期目标。当这些关系在你想要解决的问题中无效或不重要时，这也会降低他们的学习效率。如果你在一个典型的图像分类数据集上训练Q-学习，并添加时间步骤，它将花费大量的时间/资源，确定它的行动选择对它随后呈现的图像没有任何影响，或者从后面的图像中获得奖励是多么容易，而不是从早期的图像中得到奖励，这取决于状态的变化。如果您确实允许选择操作来确定下一个图像，那么您将训练RL做其他事情而不是分类。

您可以将分类器设置为语境匪徒，这可能更接近匹配。然而，这仍然抛弃了关于分类问题的知识，取而代之的是一个通用的奖励系统。例如，一个上下文匪徒解决者会故意猜测错误的类，以检查有时这样做是否有很小的机会获得高回报。

如果你非常小心你如何代表行动和奖励，并设置其他超参数，那么你可能能够重新创建一个类似的梯度设置，以正常的监督学习，只损失一点点效率，通过使用RL或上下文强盗框架你的问题。但是，您仍然会增加一些不必要的复杂性。

如果您搜索，您可能会找到一些方法来结合RL和监督学习，例如在本文提出了用RL改进生成神经网络的方法.中。然而，这些目前似乎是利基，并不是为了改善或取代监督学习。

最后，理论上，您可以允许RL作为活动识别(或任何其他视频或多图像分类任务)的一部分来控制摄像机pan/缩放。这将是一个完整的RL问题，因为代理的行为将真正影响后期的状态，并有望提高识别的准确性。为了提高学习效率，您可能希望最初将其与已经接受过训练的网络结合起来，以便在受监督的数据集上识别操作。您需要试验识别部分与RL部分相比培训了多少(因为它将开始在正常数据集之外收集数据)。当然，联合系统的建立和培训可能是一个重大项目。你可以在游戏引擎中模拟它，也许在早期阶段。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/32608

复制

相似问题

问将动作识别重新定义为强化学习问题
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将动作识别重新定义为强化学习问题EN