我有一个具有连续状态空间和离散动作空间(像0或1这样的两个动作)的环境。这种情况下最好的RL算法是什么?
发布于 2019-10-25 13:05:17
好吧,这取决于奖励结构;状态和动作空间本身并不能定义问题的容易程度,而且还不能说有什么好的算法。我会先试试DQN。如果不起作用,我会尝试A2C或A3C。如果它们也不起作用,我会尝试PPO。
如果这两种方法都不起作用,则需要提供有关环境的更多信息。也许它需要一种特殊的探索技术。
你可以在Ray documentation上找到对它们的非常高级的描述。链接上提供了相应论文的链接及其代码。
https://stackoverflow.com/questions/58550725
复制相似问题