我正在进行一个项目,在这个项目中,我需要在多agent场景中从1点到另一点在连续空间找到最佳的优化路径。我正在寻找适合这个问题的最佳算法,使用强化学习。我尝试过“多代理演员-评论家的混合合作竞争环境”,但它似乎没有达到目标,在10000个人。我如何改进这个算法,或者有没有其他的算法可以帮助我做到这一点。
发布于 2019-06-26 05:28:26
多agent强化学习很难掌握,在一般情况下还没有被证明是有效的。
问题在于,在多agent中,从每个个体agent的角度来看,环境变得非平稳。这意味着代理操作不能直接映射到状态,因为其他代理单独执行操作,这“混淆”了所有代理。这里有一个深入的多智能体研究的集合:https://github.com/LantaoYu/MARL-Papers。
如果你想追求你所提到的演员批评方法,我建议你进一步研究:如果你想完善https://arxiv.org/pdf/1706.02275.pdf,多代理演员评论家 (MADDPG)
https://stackoverflow.com/questions/56730118
复制相似问题