首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多智能体(不是深层)强化学习?问题建模

多智能体(不是深层)强化学习?问题建模
EN

Stack Overflow用户
提问于 2020-11-21 13:48:08
回答 1查看 90关注 0票数 0

我有N个代理/用户访问单个无线信道,而且每次只有一个代理可以访问该信道并获得奖励。

每个用户都有一个缓冲区,可以存储B数的数据包,我假设它是无限缓冲区。

如果时隙t中的数据包成功或失败(碰撞),则每个用户n从环境中得到观察。如果超过一个用户访问该频道,他们将受到惩罚。

这个来自频道的反馈对于所有用户来说都是一样的,因为我们只有一个频道。奖励是- B_n (缓冲区中的数据包数为负数)。每个用户都希望最大化自己的奖励,并尝试清空缓冲区。

分组按照泊松过程到达每个用户,每个时隙平均$\lambda$分组。

每个用户都有以前10个时隙的历史记录,它使用这些时隙作为DQN的输入,以输出采取行动的概率,A_n:保持沉默或发送。历史是(A_n,F,B_n)

每个用户都不知道其他用户的操作和缓冲区状态。

我试图用多and强化学习来模拟我的问题,到目前为止,我已经用DQN尝试过了,但是结果或多或少像一个随机方案。可能是为了了解其他用户的行为,用户没有多少上下文信息?或者还有别的原因吗?

我想知道如何建模我的环境,因为状态(在RL意义上)是静态的,环境不会改变。唯一改变的是每个用户在每个时间段的历史记录。因此,我不确定这是一个部分可观察的MDP,还是应该被建模为多智能体单臂盗贼问题,我不知道是否正确。

第二个问题是,我尝试过DQN,但它没有起作用,我想知道这种问题是否可以与表格式Q-学习一起使用?我从未见过有人使用QL的多代理作品。任何见解都可能有帮助。

EN

回答 1

Stack Overflow用户

发布于 2020-11-25 19:34:41

您的问题可以建模为一个分散的POMDP (请参阅概述这里)。

总结这种方法,您可以考虑一个多agent系统,其中每个agent都对自己的策略进行建模,然后尝试通过这些单独的策略来构建一个联合策略。当然,随着代理、状态和操作的增加,复杂性会增加,因此您有几种主要基于启发式的方法来修剪与其他策略树相比“不好”的联合策略树的分支。使用这种方法的一个非常熟悉的例子就是在可能的情况下路由包,定义一个离散的操作/空间。

但请注意,即使是对于微小的系统,复杂性往往变得不可行!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64943778

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档