问连续状态空间和离散动作空间的最佳强化学习算法
EN

Stack Overflow用户

提问于 2019-10-25 08:32:50

回答 1查看 285关注 0票数 0

我有一个具有连续状态空间和离散动作空间(像0或1这样的两个动作)的环境。这种情况下最好的RL算法是什么？

发布于 2019-10-25 13:05:17

好吧，这取决于奖励结构；状态和动作空间本身并不能定义问题的容易程度，而且还不能说有什么好的算法。我会先试试DQN。如果不起作用，我会尝试A2C或A3C。如果它们也不起作用，我会尝试PPO。

如果这两种方法都不起作用，则需要提供有关环境的更多信息。也许它需要一种特殊的探索技术。

你可以在Ray documentation上找到对它们的非常高级的描述。链接上提供了相应论文的链接及其代码。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58550725

复制

相似问题

问连续状态空间和离散动作空间的最佳强化学习算法EN