我正在使用ray RLlib库来训练多智能体训练器来玩5人一排的游戏。这是零和环境,所以我有一个智能体行为退化的问题(第一个智能体总是赢,5步才能赢)。我有一个想法来改变智能体的学习率:首先训练第一个智能体,第二个是随机的,学习率等于零。在第一个智能体学会如何赢得超过90%的游戏后切换。然后重复,但在构造函数中初始化后,我不能更改学习率。"lr": lr re
为了对交互进行求和,它首先必须检查智能体是否等于交互中的第一个或第二个智能体,然后对其求和。检查相等性几乎占据了我程序运行时间的一半。sumAgent :: [Interaction] -> Agent -> Int
-- Use this in a map call of sumAgent to return
我正在做一个基于智能体的模拟。我想让每个智能体选择关注哪个其他智能体。有很多不同的输入,但这里我要问的是vision one。因此,考虑到大小,智能体必须看看哪个其他智能体最接近。# Uses viewer location and location of each agent in the other group to see who is closest.# At the end, divide