我想标题说明了这一点。一个“游戏”需要一系列的动作才能完成,在这一点上会计算出总分。我们的目标是最大化这个分数,并且在游戏中没有为特定的走法提供奖励。有没有针对这类问题的现有算法?
编辑:通过“连续变量”奖励,我的意思是它是一个浮点数,而不是一个输赢的二进制。因此,例如,你不能通过强化为达到目标而采取的行动来回应“胜利”。你所拥有的只是一个数字。您可以按偏好顺序对不同的运行进行排名,但单个结果并不是特别有意义。
发布于 2019-08-03 16:16:00
首先,在我看来,当你谈到“不断变化的奖励”时,你的问题的标题似乎有点令人困惑。也许你可以澄清这一点。
另一方面,如果不考虑前面的一点,看起来你正在谈论时间信用分配问题:如何为只在序列结束时获得奖励(正或负)的一系列操作分配信用?
例如,在Tic-tac-toe游戏中,智能体直到游戏结束时才会收到任何奖励。在这种情况下,几乎所有的RL算法都试图解决临时信用分配问题。例如,参见Sutton and Barto RL book的第1.5节,其中他们解释了RL的工作原理及其相对于其他方法的优势,并以Tic-tac-toe游戏为例。
https://stackoverflow.com/questions/57334343
复制相似问题