文章/答案/技术大牛

发布

社区首页 >问答首页 >Q学习(多目标)

问Q学习(多目标)
EN

Stack Overflow用户

提问于 2013-11-15 06:37:52

回答 2查看 1.8K关注 0票数 2

我刚刚开始研究Q-learning，并且看到了使用Q-learning来解决我的问题的可能性。

问题:我应该检测特定的数据组合，我有四个矩阵作为我系统的输入，我已经对输入进行了分类(每个输入可以是Low (L)或High (H) )。我需要检测某些类型的输入，例如LLLH、LLHH、HHHH等

注: 1)LLLH表示L中的第一个输入，第二个输入是L，第三个输入是L，第四个输入是H！2)我已经将每种输入类型标记为状态，例如LLLL是状态1，LLLH是状态2，依此类推。

我在Q学习中研究的是，大多数时候你有一个目标(只有一个状态作为目标)，这使得智能体更容易学习并从R矩阵创建Q矩阵。现在，在我的问题中，我有许多目标(许多状态充当目标，需要检测)。我不知道如何设计状态，如何通过拥有多个目标来创建奖励矩阵，以及智能体将如何学习。你能帮我在这种情况下如何使用Q-learning吗？考虑到我在20+状态下有16个目标！

正如我上面提到的，我知道什么是Q学习，状态和目标是如何工作的，Q_matrix的计算(它是如何学习的)……但问题是，现在我有很多目标，我真的不知道如何将我的问题与Q-learning联系起来。我需要多少个州，以及如何标记奖励，因为我有许多目标。

我至少需要关于如何创建具有多个目标的奖励矩阵的帮助

artificial-intelligence

reinforcement-learning

reward

q-learning

machine-learning

回答 2

Stack Overflow用户

发布于 2013-12-27 07:27:24

我至少需要关于如何创建具有多个目标的奖励矩阵的帮助

最简单的方法是对每个目标进行奖励，然后对这些奖励进行加权求和，从而获得总奖励。

Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn

然后你可以决定如何权衡每个奖励，它会影响智能体的最终行为，因为每次它都试图学习不同的东西。

还有更复杂的方法，称为“多维奖励RL”或“多准则RL”。你可以在谷歌上搜索并找到相关的论文。

票数 0

Stack Overflow用户

发布于 2017-11-18 04:13:58

多个目标正在调查中，因为它确实解决了一些关键的RL问题。

这里有一篇很棒的文章，目标是递送包裹或给电池充电……如果你不充电，送货将失败，但如果你不断充电，你将不会进行任何送货。这是这两个重要目标之间的平衡。

作者将向您介绍TensorFlow中的逻辑和方法：https://www.oreilly.com/ideas/reinforcement-learning-for-complex-goals-using-tensorflow

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19989919

复制

相似问题

问Q学习(多目标)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Q学习(多目标)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Q学习(多目标)
EN