首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >蒙特卡洛树搜索:两人博弈的树策略

蒙特卡洛树搜索:两人博弈的树策略
EN

Stack Overflow用户
提问于 2017-02-17 23:54:48
回答 2查看 1.6K关注 0票数 7

我对MCTS的“树策略”是如何实现的感到有点困惑。我读到的每篇论文或文章都谈到从当前游戏状态向下走(在MCTS teminology中:玩家即将采取行动的根源)。我的问题是,即使我处于最小玩家级别(假设我是最大玩家),我如何选择最好的孩子。即使我选择了MIN可能采取的一些特定操作,并且我的搜索树更深入地遍历了该节点,MIN玩家在轮到它的过程中也可能选择一些不同的节点。(如果min玩家是一个业余玩家,那么它也可能选择一些不一定是最好的节点)。由于MIN选择了一个不同的节点,这使得MAX在通过该节点传播时所做的全部工作都是徒劳的。对于我提到的步骤:https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/,其中的树策略:https://jeffbradberry.com/images/mcts_selection.png让我相信他们是从单个玩家的角度执行它的。

EN

回答 2

Stack Overflow用户

发布于 2020-05-26 00:03:20

要为双人游戏实现MCTS,您可以简单地在反向传播的每个步骤中翻转符号,这是代码中的一行更改。

这意味着我们试图最大化每一层的奖励,但是当我们在树上传播奖励时,当你到达你的层时,对手的正奖励对你来说就变成了负奖励。

票数 1
EN

Stack Overflow用户

发布于 2017-02-18 01:26:00

对于MCTS,您需要某种方法来生成可能移动的概率分布的合理估计。对于AlphaGo 1,这是快速推出概率,在本文中为$p_\pi$,它采用一个状态并输出所有可能移动的粗略概率分布。AlphaGo团队将其实现为一个浅层神经网络,首先在专家游戏上进行训练,然后通过与自己进行游戏来改进。

1

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42302142

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档