文章/答案/技术大牛

发布

社区首页 >问答首页 >蒙特卡洛树搜索:两人博弈的树策略

问蒙特卡洛树搜索:两人博弈的树策略
EN

Stack Overflow用户

提问于 2017-02-17 23:54:48

回答 2查看 1.6K关注 0票数 7

我对MCTS的“树策略”是如何实现的感到有点困惑。我读到的每篇论文或文章都谈到从当前游戏状态向下走(在MCTS teminology中:玩家即将采取行动的根源)。我的问题是，即使我处于最小玩家级别(假设我是最大玩家)，我如何选择最好的孩子。即使我选择了MIN可能采取的一些特定操作，并且我的搜索树更深入地遍历了该节点，MIN玩家在轮到它的过程中也可能选择一些不同的节点。(如果min玩家是一个业余玩家，那么它也可能选择一些不一定是最好的节点)。由于MIN选择了一个不同的节点，这使得MAX在通过该节点传播时所做的全部工作都是徒劳的。对于我提到的步骤：https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/，其中的树策略：https://jeffbradberry.com/images/mcts_selection.png让我相信他们是从单个玩家的角度执行它的。

algorithm

montecarlo

alpha-beta-pruning

回答 2

Stack Overflow用户

发布于 2020-05-26 00:03:20

要为双人游戏实现MCTS，您可以简单地在反向传播的每个步骤中翻转符号，这是代码中的一行更改。

这意味着我们试图最大化每一层的奖励，但是当我们在树上传播奖励时，当你到达你的层时，对手的正奖励对你来说就变成了负奖励。

票数 1

Stack Overflow用户

发布于 2017-02-18 01:26:00

对于MCTS，您需要某种方法来生成可能移动的概率分布的合理估计。对于AlphaGo 1，这是快速推出概率，在本文中为$p_\pi$，它采用一个状态并输出所有可能移动的粗略概率分布。AlphaGo团队将其实现为一个浅层神经网络，首先在专家游戏上进行训练，然后通过与自己进行游戏来改进。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42302142

复制

相似问题

问蒙特卡洛树搜索:两人博弈的树策略
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问蒙特卡洛树搜索:两人博弈的树策略EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问蒙特卡洛树搜索:两人博弈的树策略
EN