我正在使用ray RLlib库来训练多智能体训练器来玩5人一排的游戏。这是零和环境,所以我有一个智能体行为退化的问题(第一个智能体总是赢,5步才能赢)。我有一个想法来改变智能体的学习率:首先训练第一个智能体,第二个是随机的,学习率等于零。在第一个智能体学会如何赢得超过90%的游戏后切换。然后重复,但在构造函数中初始化后,我不能更改学习率。"lr": lr re
智能体随机移动,其他物体不移动。在agentmove函数中,智能体进入障碍物,它停止,但我希望智能体避免进入障碍物,那么我如何跟踪智能体以前的位置,如果智能体的下一步是障碍物所在的位置,它就会避开它?tile;int x,y;int a,b;final int til=2;
final int obs=3
为了对交互进行求和,它首先必须检查智能体是否等于交互中的第一个或第二个智能体,然后对其求和。检查相等性几乎占据了我程序运行时间的一半。sumAgent :: [Interaction] -> Agent -> Int
-- Use this in a map call of sumAgent to return