考虑到强化学习方面的重大进展,我想知道是否有可能将诸如动作识别、目标跟踪或图像分类等问题转化为强化学习问题。
发布于 2018-06-04 15:01:02
考虑到强化学习的重大进展
值得注意的是,最近的许多进步是由于神经网络作为函数逼近器的改进,并了解了如何将它们与强化学习( RL )结合起来,以帮助解决涉及视觉或其他复杂的非线性映射(从状态到最佳行动)的RL挑战。
因此,至少目前RL的一些改进是由于研究人员提出了相反的问题,“考虑到神经网络的显著进步……”
我想知道是否有可能将诸如动作识别、目标跟踪或图像分类等问题转化为强化学习问题。
一般来说,在最高层,答案是“是”,但它没有提供任何好处,而且可能表现得更糟。
这是因为在典型的监督学习场景中,没有什么能与修改状态的动作概念相匹配。在示例分类器中,您可以获得一个状态(要分类的输入)、一个动作(类别的选择)和奖励(无论选择与标签是否匹配)。但是,采取一种行动不会导致另一种状态,在特定环境或“插曲”中的多个行动中,奖励并不稀少或累积。没有时间的步骤。
RL算法是一种通用的MDP求解器算法--它们可以了解状态、动作和可能的下一个状态之间的关系,并在给定当前状态时通过可能的时间步骤来优化长期目标。当这些关系在你想要解决的问题中无效或不重要时,这也会降低他们的学习效率。如果你在一个典型的图像分类数据集上训练Q-学习,并添加时间步骤,它将花费大量的时间/资源,确定它的行动选择对它随后呈现的图像没有任何影响,或者从后面的图像中获得奖励是多么容易,而不是从早期的图像中得到奖励,这取决于状态的变化。如果您确实允许选择操作来确定下一个图像,那么您将训练RL做其他事情而不是分类。
您可以将分类器设置为语境匪徒,这可能更接近匹配。然而,这仍然抛弃了关于分类问题的知识,取而代之的是一个通用的奖励系统。例如,一个上下文匪徒解决者会故意猜测错误的类,以检查有时这样做是否有很小的机会获得高回报。
如果你非常小心你如何代表行动和奖励,并设置其他超参数,那么你可能能够重新创建一个类似的梯度设置,以正常的监督学习,只损失一点点效率,通过使用RL或上下文强盗框架你的问题。但是,您仍然会增加一些不必要的复杂性。
如果您搜索,您可能会找到一些方法来结合RL和监督学习,例如在本文提出了用RL改进生成神经网络的方法.中。然而,这些目前似乎是利基,并不是为了改善或取代监督学习。
最后,理论上,您可以允许RL作为活动识别(或任何其他视频或多图像分类任务)的一部分来控制摄像机pan/缩放。这将是一个完整的RL问题,因为代理的行为将真正影响后期的状态,并有望提高识别的准确性。为了提高学习效率,您可能希望最初将其与已经接受过训练的网络结合起来,以便在受监督的数据集上识别操作。您需要试验识别部分与RL部分相比培训了多少(因为它将开始在正常数据集之外收集数据)。当然,联合系统的建立和培训可能是一个重大项目。你可以在游戏引擎中模拟它,也许在早期阶段。
https://datascience.stackexchange.com/questions/32608
复制相似问题