问如何对经典控制问题实现最大策略优化(PPO)算法？
EN

Stack Overflow用户

提问于 2019-05-01 22:51:50

回答 1查看 928关注 0票数 1

我正在尝试实现对经典控制任务的剪裁PPO算法，如保持室温，电池充电等在一定的范围内。到目前为止，我只在游戏环境中看到了实现。我的问题是，游戏环境和经典的控制问题是不同的，当涉及到实现剪裁PPO算法？如果他们是，帮助和提示如何实现我的情况下的算法。

python

keras

reinforcement-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-02 08:21:25

我从一般的RL角度回答你的问题，我不认为特定的算法(PPO)在这个问题上有任何区别。

我认为没有根本的区别，两者都可以看作是离散的控制问题。在一个游戏中，你观察状态，然后选择一个动作并根据它行事，并获得对随后状态的观察的奖励。

现在，如果您使用一个简单的控制问题，而不是一个游戏，您可能有一个模拟(或者只是一个非常简单的动态模型)来描述您的问题的行为。例如，倒立摆的运动方程(另一个经典的控制问题)。在某些情况下，您可能直接与实际系统进行交互，而不是它的模型，但这是很少见的，因为它可能非常慢，而且RL算法的典型示例复杂性使得对实际(物理)系统的学习变得不太实际。

本质上，您与问题模型的交互方式与处理游戏的方式相同:您观察一个状态，采取一个动作和行为，并观察下一个状态。唯一的区别是，在游戏中，奖励通常是预先定义的(一些分数或目标状态)，也许您需要为您的问题定义奖励函数。但是，在很多情况下，你也需要为游戏定义奖励，所以这也不是一个很大的区别。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55943678

复制

相似问题

问如何对经典控制问题实现最大策略优化(PPO)算法？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何对经典控制问题实现最大策略优化(PPO)算法？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何对经典控制问题实现最大策略优化(PPO)算法？
EN