首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >连续状态空间和离散动作空间的最佳强化学习算法

连续状态空间和离散动作空间的最佳强化学习算法
EN

Stack Overflow用户
提问于 2019-10-25 08:32:50
回答 1查看 285关注 0票数 0

我有一个具有连续状态空间和离散动作空间(像0或1这样的两个动作)的环境。这种情况下最好的RL算法是什么?

EN

回答 1

Stack Overflow用户

发布于 2019-10-25 13:05:17

好吧,这取决于奖励结构;状态和动作空间本身并不能定义问题的容易程度,而且还不能说有什么好的算法。我会先试试DQN。如果不起作用,我会尝试A2CA3C。如果它们也不起作用,我会尝试PPO

如果这两种方法都不起作用,则需要提供有关环境的更多信息。也许它需要一种特殊的探索技术。

你可以在Ray documentation上找到对它们的非常高级的描述。链接上提供了相应论文的链接及其代码。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58550725

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档