问哪种强化学习算法适用于具有连续可变奖励和没有中间奖励的问题？
EN

Stack Overflow用户

提问于 2019-08-03 07:13:44

回答 1查看 44关注 0票数 1

我想标题说明了这一点。一个“游戏”需要一系列的动作才能完成，在这一点上会计算出总分。我们的目标是最大化这个分数，并且在游戏中没有为特定的走法提供奖励。有没有针对这类问题的现有算法？

编辑:通过“连续变量”奖励，我的意思是它是一个浮点数，而不是一个输赢的二进制。因此，例如，你不能通过强化为达到目标而采取的行动来回应“胜利”。你所拥有的只是一个数字。您可以按偏好顺序对不同的运行进行排名，但单个结果并不是特别有意义。

发布于 2019-08-03 16:16:00

首先，在我看来，当你谈到“不断变化的奖励”时，你的问题的标题似乎有点令人困惑。也许你可以澄清这一点。

另一方面，如果不考虑前面的一点，看起来你正在谈论时间信用分配问题:如何为只在序列结束时获得奖励(正或负)的一系列操作分配信用？

例如，在Tic-tac-toe游戏中，智能体直到游戏结束时才会收到任何奖励。在这种情况下，几乎所有的RL算法都试图解决临时信用分配问题。例如，参见Sutton and Barto RL book的第1.5节，其中他们解释了RL的工作原理及其相对于其他方法的优势，并以Tic-tac-toe游戏为例。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57334343

复制

相似问题

问哪种强化学习算法适用于具有连续可变奖励和没有中间奖励的问题？EN