首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >理解MCTS节点选择

理解MCTS节点选择
EN

Stack Overflow用户
提问于 2014-01-24 00:11:14
回答 1查看 1.7K关注 0票数 2

我目前正试图为我的一个项目实现MCTS,但我不确定我是否正确理解节点选择的概念。在游戏开始时,在我随机选择一个动作后,将整棵树展开到一个游戏结束点,然后进行反向传播,这个节点显然比其他节点更好,因为它是1/1 (如果我们赢了)和他们的0/0。MCTS如何逃离这个陷阱而不被随机选择的节点所困?

我的意思是,如果我们使用UCB来寻找要扩展的最佳节点,它总是会选择我们首先选择的节点(考虑到结果是成功的),完全忽略所有其他节点,因为它将是唯一一个非零值的节点。我在这里漏掉了什么,因为显然不是这样的?

EN

回答 1

Stack Overflow用户

发布于 2014-01-24 00:29:41

每次到达节点时,都根据以下规则展开节点:

  • 如果一个子节点以前从未展开过,那么随机展开一个未探索的子节点(您可以立即从这个子节点展开)。
  • 否则,每个子节点至少访问一次。为所有这些节点计算“探测/利用”值,并展开值最高的子节点。

MCTS的思想是最大限度地实现勘探开发。如果一个子节点以前从未被探索过,那么与它相关的“探索”值是无限的,您将不得不去探索它。然而,一旦您展开了所有子节点,那么您将更频繁地展开具有更高值的子节点(这是“利用”部分)。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21321986

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档