首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我对如何在策略优化中确定输出概率和选择操作感到困惑

我对如何在策略优化中确定输出概率和选择操作感到困惑
EN

Stack Overflow用户
提问于 2020-05-07 16:52:16
回答 1查看 30关注 0票数 1

我目前正在学习我的游戏的PPO,并得到了最基本的下来。我看了几个YouTube视频,试图理解几个代码,但有些东西让我感到困惑。

因此,在我的理解中,PPO (可能是一般的策略优化)使用softmax作为激活函数,以概率形式获得输出,然后输入到高斯分布。根据我的学习,所有的输出概率组合应该是1,这意味着只有一个动作正在进行。这如何转化为可能需要同时执行多个操作的事情?(例如:在游戏中同时按下两个或两个以上按钮)

我需要规划出所有可能的行动吗?(包括组合)

或者我错过了什么,模型有可能单独计算输出可能性?(移动概率和武器动作概率不同)

EN

回答 1

Stack Overflow用户

发布于 2020-05-07 19:19:22

如果您特别希望同时执行两个操作,您可能希望规划出所有可能的操作组合。在任何给定的时间步长,您只能从输出分布中选择一个操作,因此必须包括组合。

但是,您的代理可以学习在拍摄和移动之间交替,但这些操作将在不同的步骤中发生。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61653650

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档