让我们使用RL对随机玩家进行tictactoe设计。我们可以通过加强和奖励好的行为来描述这个系统。但是如果Rl模型是自己玩的呢?在这种情况下,比玩随机玩家更有什么变化?
发布于 2022-07-18 15:23:16
它不会有太大的变化。与其使用随机策略,你只需要用你正在训练的策略替换对手(假设这是一个零和游戏,其中两个特工有相同的动作,目标是达到相同的目标) \pi_{\theta}(a\mid s)。你可能想更新对手的策略,而不是为了稳定而训练的策略。
在tictactoe,国际象棋或围棋的例子中,典型的奖励将是1如果我们赢了,-1如果我们输了,这将在节目的最后给予。
https://datascience.stackexchange.com/questions/112733
复制相似问题