首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何对经典控制问题实现最大策略优化(PPO)算法?

如何对经典控制问题实现最大策略优化(PPO)算法?
EN

Stack Overflow用户
提问于 2019-05-01 22:51:50
回答 1查看 928关注 0票数 1

我正在尝试实现对经典控制任务的剪裁PPO算法,如保持室温,电池充电等在一定的范围内。到目前为止,我只在游戏环境中看到了实现。我的问题是,游戏环境和经典的控制问题是不同的,当涉及到实现剪裁PPO算法?如果他们是,帮助和提示如何实现我的情况下的算法。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-02 08:21:25

我从一般的RL角度回答你的问题,我不认为特定的算法(PPO)在这个问题上有任何区别。

我认为没有根本的区别,两者都可以看作是离散的控制问题。在一个游戏中,你观察状态,然后选择一个动作并根据它行事,并获得对随后状态的观察的奖励。

现在,如果您使用一个简单的控制问题,而不是一个游戏,您可能有一个模拟(或者只是一个非常简单的动态模型)来描述您的问题的行为。例如,倒立摆的运动方程(另一个经典的控制问题)。在某些情况下,您可能直接与实际系统进行交互,而不是它的模型,但这是很少见的,因为它可能非常慢,而且RL算法的典型示例复杂性使得对实际(物理)系统的学习变得不太实际。

本质上,您与问题模型的交互方式与处理游戏的方式相同:您观察一个状态,采取一个动作和行为,并观察下一个状态。唯一的区别是,在游戏中,奖励通常是预先定义的(一些分数或目标状态),也许您需要为您的问题定义奖励函数。但是,在很多情况下,你也需要为游戏定义奖励,所以这也不是一个很大的区别。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55943678

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档