首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Q学习(多目标)

Q学习(多目标)
EN

Stack Overflow用户
提问于 2013-11-15 06:37:52
回答 2查看 1.8K关注 0票数 2

我刚刚开始研究Q-learning,并且看到了使用Q-learning来解决我的问题的可能性。

问题:我应该检测特定的数据组合,我有四个矩阵作为我系统的输入,我已经对输入进行了分类(每个输入可以是Low (L)或High (H) )。我需要检测某些类型的输入,例如LLLH、LLHH、HHHH等

注: 1)LLLH表示L中的第一个输入,第二个输入是L,第三个输入是L,第四个输入是H!2)我已经将每种输入类型标记为状态,例如LLLL是状态1,LLLH是状态2,依此类推。

我在Q学习中研究的是,大多数时候你有一个目标(只有一个状态作为目标),这使得智能体更容易学习并从R矩阵创建Q矩阵。现在,在我的问题中,我有许多目标(许多状态充当目标,需要检测)。我不知道如何设计状态,如何通过拥有多个目标来创建奖励矩阵,以及智能体将如何学习。你能帮我在这种情况下如何使用Q-learning吗?考虑到我在20+状态下有16个目标!

正如我上面提到的,我知道什么是Q学习,状态和目标是如何工作的,Q_matrix的计算(它是如何学习的)……但问题是,现在我有很多目标,我真的不知道如何将我的问题与Q-learning联系起来。我需要多少个州,以及如何标记奖励,因为我有许多目标。

我至少需要关于如何创建具有多个目标的奖励矩阵的帮助

EN

回答 2

Stack Overflow用户

发布于 2013-12-27 07:27:24

我至少需要关于如何创建具有多个目标的奖励矩阵的帮助

最简单的方法是对每个目标进行奖励,然后对这些奖励进行加权求和,从而获得总奖励。

代码语言:javascript
复制
Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn

然后你可以决定如何权衡每个奖励,它会影响智能体的最终行为,因为每次它都试图学习不同的东西。

还有更复杂的方法,称为“多维奖励RL”或“多准则RL”。你可以在谷歌上搜索并找到相关的论文。

票数 0
EN

Stack Overflow用户

发布于 2017-11-18 04:13:58

多个目标正在调查中,因为它确实解决了一些关键的RL问题。

这里有一篇很棒的文章,目标是递送包裹或给电池充电……如果你不充电,送货将失败,但如果你不断充电,你将不会进行任何送货。这是这两个重要目标之间的平衡。

作者将向您介绍TensorFlow中的逻辑和方法:https://www.oreilly.com/ideas/reinforcement-learning-for-complex-goals-using-tensorflow

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19989919

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档