我正在使用ray RLlib库来训练多智能体训练器来玩5人一排的游戏。这是零和环境,所以我有一个智能体行为退化的问题(第一个智能体总是赢,5步才能赢)。我有一个想法来改变智能体的学习率:首先训练第一个智能体,第二个是随机的,学习率等于零。在第一个智能体学会如何赢得超过90%的游戏后切换。然后重复,但在构造函数中初始化后,我不能更改学习率。"lr": lr re
智能体随机移动,其他物体不移动。在agentmove函数中,智能体进入障碍物,它停止,但我希望智能体避免进入障碍物,那么我如何跟踪智能体以前的位置,如果智能体的下一步是障碍物所在的位置,它就会避开它?PVector hole1;PVector obstacle;int i,j;final int hole=1;
final int til=