首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多智能体强化学习环境公共交通问题

多智能体强化学习环境公共交通问题
EN

Stack Overflow用户
提问于 2020-09-23 11:15:57
回答 1查看 666关注 0票数 1

在我的Msc论文中,我想把多智能体RL应用于一个总线控制问题。其想法是,巴士在给定的线路上运行,但没有时间表。公共汽车应该有公交车站,乘客们会随着时间的推移而聚集起来,巴士之间的间隔越长,乘客在车站等候的时间就会越长(平均而言,这是一个随机过程)。我还想实现一些十字路口,巴士将不得不等待绿灯。

我还不知道我的奖励功能会是什么样子,但它将是一些路线,保持班车之间的间隔尽可能定期或尽量减少乘客的总旅行时间。

问题中的代理将是公共汽车,但也是交通灯。交通灯可以选择什么时候显示哪条路的绿灯:除了公共汽车,他们还有其他需要处理的需求。公共汽车可以选择加速、减速、在停车时等待更长时间或以正常速度继续行驶。

为了能够将这个问题放到RL框架中,我需要一个环境和合适的RL算法。理想情况下,我将有一个灵活的模拟环境,以重新创建我的案例研究总线线,并将此连接到现成的RL算法。不过,到目前为止我还没有找到这个。这意味着我可能不得不将模拟环境与类似于OpenAI健身房的东西连接起来。

是否有人建议适合哪种模拟环境?如果有可能把这个和现有的RL算法联系起来呢?

我对用Python编程感到非常满意,但其他语言也是一种选择(但这意味着我将付出大量额外的努力)。

到目前为止,我发现了以下可能适合的模拟环境:

NetLogo

SimPy

台面

MATSim (https://www.matsim.org)

Matlab

CityFlow (https://cityflow-project.github.io/#about)

平地(https://www.aicrowd.com/challenges/neurips-2020-flatland-challenge/)

对于RL算法,选项似乎是:

  1. 自己编代码
  2. 根据OpenAI健身API指南创建环境,并使用OpenAI基线算法。

我很想听听关于哪种环境最适合我的问题的建议和建议!

EN

回答 1

Stack Overflow用户

发布于 2020-10-07 12:34:13

您还可以将相扑作为一个流量模拟器和RLLib库来进行多agent强化学习。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64026757

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档