在我的Msc论文中,我想把多智能体RL应用于一个总线控制问题。其想法是,巴士在给定的线路上运行,但没有时间表。公共汽车应该有公交车站,乘客们会随着时间的推移而聚集起来,巴士之间的间隔越长,乘客在车站等候的时间就会越长(平均而言,这是一个随机过程)。我还想实现一些十字路口,巴士将不得不等待绿灯。
我还不知道我的奖励功能会是什么样子,但它将是一些路线,保持班车之间的间隔尽可能定期或尽量减少乘客的总旅行时间。
问题中的代理将是公共汽车,但也是交通灯。交通灯可以选择什么时候显示哪条路的绿灯:除了公共汽车,他们还有其他需要处理的需求。公共汽车可以选择加速、减速、在停车时等待更长时间或以正常速度继续行驶。
为了能够将这个问题放到RL框架中,我需要一个环境和合适的RL算法。理想情况下,我将有一个灵活的模拟环境,以重新创建我的案例研究总线线,并将此连接到现成的RL算法。不过,到目前为止我还没有找到这个。这意味着我可能不得不将模拟环境与类似于OpenAI健身房的东西连接起来。
是否有人建议适合哪种模拟环境?如果有可能把这个和现有的RL算法联系起来呢?
我对用Python编程感到非常满意,但其他语言也是一种选择(但这意味着我将付出大量额外的努力)。
到目前为止,我发现了以下可能适合的模拟环境:
NetLogo
SimPy
台面
MATSim (https://www.matsim.org)
Matlab
CityFlow (https://cityflow-project.github.io/#about)
平地(https://www.aicrowd.com/challenges/neurips-2020-flatland-challenge/)
对于RL算法,选项似乎是:
我很想听听关于哪种环境最适合我的问题的建议和建议!
https://stackoverflow.com/questions/64026757
复制相似问题