问我对如何在策略优化中确定输出概率和选择操作感到困惑
EN

Stack Overflow用户

提问于 2020-05-07 16:52:16

回答 1查看 30关注 0票数 1

我目前正在学习我的游戏的PPO，并得到了最基本的下来。我看了几个YouTube视频，试图理解几个代码，但有些东西让我感到困惑。

因此，在我的理解中，PPO (可能是一般的策略优化)使用softmax作为激活函数，以概率形式获得输出，然后输入到高斯分布。根据我的学习，所有的输出概率组合应该是1，这意味着只有一个动作正在进行。这如何转化为可能需要同时执行多个操作的事情？(例如:在游戏中同时按下两个或两个以上按钮)

我需要规划出所有可能的行动吗？(包括组合)

或者我错过了什么，模型有可能单独计算输出可能性？(移动概率和武器动作概率不同)

发布于 2020-05-07 19:19:22

如果您特别希望同时执行两个操作，您可能希望规划出所有可能的操作组合。在任何给定的时间步长，您只能从输出分布中选择一个操作，因此必须包括组合。

但是，您的代理可以学习在拍摄和移动之间交替，但这些操作将在不同的步骤中发生。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61653650

复制

相似问题

问我对如何在策略优化中确定输出概率和选择操作感到困惑EN