我对MCTS的“树策略”是如何实现的感到有点困惑。我读到的每篇论文或文章都谈到从当前游戏状态向下走(在MCTS teminology中:玩家即将采取行动的根源)。我的问题是,即使我处于最小玩家级别(假设我是最大玩家),我如何选择最好的孩子。即使我选择了MIN可能采取的一些特定操作,并且我的搜索树更深入地遍历了该节点,MIN玩家在轮到它的过程中也可能选择一些不同的节点。(如果min玩家是一个业余玩家,那么它也可能选择一些不一定是最好的节点)。由于MIN选择了一个不同的节点,这使得MAX在通过该节点传播时所做的全部工作都是徒劳的。对于我提到的步骤:https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/,其中的树策略:https://jeffbradberry.com/images/mcts_selection.png让我相信他们是从单个玩家的角度执行它的。
发布于 2020-05-26 00:03:20
要为双人游戏实现MCTS,您可以简单地在反向传播的每个步骤中翻转符号,这是代码中的一行更改。
这意味着我们试图最大化每一层的奖励,但是当我们在树上传播奖励时,当你到达你的层时,对手的正奖励对你来说就变成了负奖励。
发布于 2017-02-18 01:26:00
对于MCTS,您需要某种方法来生成可能移动的概率分布的合理估计。对于AlphaGo 1,这是快速推出概率,在本文中为$p_\pi$,它采用一个状态并输出所有可能移动的粗略概率分布。AlphaGo团队将其实现为一个浅层神经网络,首先在专家游戏上进行训练,然后通过与自己进行游戏来改进。
1
https://stackoverflow.com/questions/42302142
复制相似问题