我刚刚开始研究Q-learning,并且看到了使用Q-learning来解决我的问题的可能性。
问题:我应该检测特定的数据组合,我有四个矩阵作为我系统的输入,我已经对输入进行了分类(每个输入可以是Low (L)或High (H) )。我需要检测某些类型的输入,例如LLLH、LLHH、HHHH等
注: 1)LLLH表示L中的第一个输入,第二个输入是L,第三个输入是L,第四个输入是H!2)我已经将每种输入类型标记为状态,例如LLLL是状态1,LLLH是状态2,依此类推。
我在Q学习中研究的是,大多数时候你有一个目标(只有一个状态作为目标),这使得智能体更容易学习并从R矩阵创建Q矩阵。现在,在我的问题中,我有许多目标(许多状态充当目标,需要检测)。我不知道如何设计状态,如何通过拥有多个目标来创建奖励矩阵,以及智能体将如何学习。你能帮我在这种情况下如何使用Q-learning吗?考虑到我在20+状态下有16个目标!
正如我上面提到的,我知道什么是Q学习,状态和目标是如何工作的,Q_matrix的计算(它是如何学习的)……但问题是,现在我有很多目标,我真的不知道如何将我的问题与Q-learning联系起来。我需要多少个州,以及如何标记奖励,因为我有许多目标。
我至少需要关于如何创建具有多个目标的奖励矩阵的帮助
发布于 2013-12-27 07:27:24
我至少需要关于如何创建具有多个目标的奖励矩阵的帮助
最简单的方法是对每个目标进行奖励,然后对这些奖励进行加权求和,从而获得总奖励。
Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn然后你可以决定如何权衡每个奖励,它会影响智能体的最终行为,因为每次它都试图学习不同的东西。
还有更复杂的方法,称为“多维奖励RL”或“多准则RL”。你可以在谷歌上搜索并找到相关的论文。
发布于 2017-11-18 04:13:58
多个目标正在调查中,因为它确实解决了一些关键的RL问题。
这里有一篇很棒的文章,目标是递送包裹或给电池充电……如果你不充电,送货将失败,但如果你不断充电,你将不会进行任何送货。这是这两个重要目标之间的平衡。
作者将向您介绍TensorFlow中的逻辑和方法:https://www.oreilly.com/ideas/reinforcement-learning-for-complex-goals-using-tensorflow
https://stackoverflow.com/questions/19989919
复制相似问题