问强化学习在游戏中对抗自己？
EN

Data Science用户

提问于 2022-07-17 11:15:45

回答 1查看 72关注 0票数 0

让我们使用RL对随机玩家进行tictactoe设计。我们可以通过加强和奖励好的行为来描述这个系统。但是如果Rl模型是自己玩的呢？在这种情况下，比玩随机玩家更有什么变化？

发布于 2022-07-18 15:23:16

它不会有太大的变化。与其使用随机策略，你只需要用你正在训练的策略替换对手(假设这是一个零和游戏，其中两个特工有相同的动作，目标是达到相同的目标) \pi_{\theta}(a\mid s)。你可能想更新对手的策略，而不是为了稳定而训练的策略。

在tictactoe，国际象棋或围棋的例子中，典型的奖励将是1如果我们赢了，-1如果我们输了，这将在节目的最后给予。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/112733

复制

相似问题

问强化学习在游戏中对抗自己？EN