我目前正在学习我的游戏的PPO,并得到了最基本的下来。我看了几个YouTube视频,试图理解几个代码,但有些东西让我感到困惑。
因此,在我的理解中,PPO (可能是一般的策略优化)使用softmax作为激活函数,以概率形式获得输出,然后输入到高斯分布。根据我的学习,所有的输出概率组合应该是1,这意味着只有一个动作正在进行。这如何转化为可能需要同时执行多个操作的事情?(例如:在游戏中同时按下两个或两个以上按钮)
我需要规划出所有可能的行动吗?(包括组合)
或者我错过了什么,模型有可能单独计算输出可能性?(移动概率和武器动作概率不同)
发布于 2020-05-07 19:19:22
如果您特别希望同时执行两个操作,您可能希望规划出所有可能的操作组合。在任何给定的时间步长,您只能从输出分布中选择一个操作,因此必须包括组合。
但是,您的代理可以学习在拍摄和移动之间交替,但这些操作将在不同的步骤中发生。
https://stackoverflow.com/questions/61653650
复制相似问题