文章/答案/技术大牛

发布

社区首页 >问答首页 >多智能体(不是深层)强化学习？问题建模

问多智能体(不是深层)强化学习？问题建模
EN

Stack Overflow用户

提问于 2020-11-21 13:48:08

回答 1查看 90关注 0票数 0

我有N个代理/用户访问单个无线信道，而且每次只有一个代理可以访问该信道并获得奖励。

每个用户都有一个缓冲区，可以存储B数的数据包，我假设它是无限缓冲区。

如果时隙t中的数据包成功或失败(碰撞)，则每个用户n从环境中得到观察。如果超过一个用户访问该频道，他们将受到惩罚。

这个来自频道的反馈对于所有用户来说都是一样的，因为我们只有一个频道。奖励是- B_n (缓冲区中的数据包数为负数)。每个用户都希望最大化自己的奖励，并尝试清空缓冲区。

分组按照泊松过程到达每个用户，每个时隙平均$\lambda$分组。

每个用户都有以前10个时隙的历史记录，它使用这些时隙作为DQN的输入，以输出采取行动的概率，A_n:保持沉默或发送。历史是(A_n，F，B_n)

每个用户都不知道其他用户的操作和缓冲区状态。

我试图用多and强化学习来模拟我的问题，到目前为止，我已经用DQN尝试过了，但是结果或多或少像一个随机方案。可能是为了了解其他用户的行为，用户没有多少上下文信息？或者还有别的原因吗？

我想知道如何建模我的环境，因为状态(在RL意义上)是静态的，环境不会改变。唯一改变的是每个用户在每个时间段的历史记录。因此，我不确定这是一个部分可观察的MDP，还是应该被建模为多智能体单臂盗贼问题，我不知道是否正确。

第二个问题是，我尝试过DQN，但它没有起作用，我想知道这种问题是否可以与表格式Q-学习一起使用？我从未见过有人使用QL的多代理作品。任何见解都可能有帮助。

reinforcement-learning

q-learning

multi-agent

dqn

回答 1

Stack Overflow用户

发布于 2020-11-25 19:34:41

您的问题可以建模为一个分散的POMDP (请参阅概述这里)。

总结这种方法，您可以考虑一个多agent系统，其中每个agent都对自己的策略进行建模，然后尝试通过这些单独的策略来构建一个联合策略。当然，随着代理、状态和操作的增加，复杂性会增加，因此您有几种主要基于启发式的方法来修剪与其他策略树相比“不好”的联合策略树的分支。使用这种方法的一个非常熟悉的例子就是在可能的情况下路由包，定义一个离散的操作/空间。

但请注意，即使是对于微小的系统，复杂性往往变得不可行！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64943778

复制

相似问题

问多智能体(不是深层)强化学习？问题建模
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多智能体(不是深层)强化学习？问题建模EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多智能体(不是深层)强化学习？问题建模
EN