问理解MCTS节点选择
EN

Stack Overflow用户

提问于 2014-01-24 00:11:14

回答 1查看 1.7K关注 0票数 2

我目前正试图为我的一个项目实现MCTS，但我不确定我是否正确理解节点选择的概念。在游戏开始时，在我随机选择一个动作后，将整棵树展开到一个游戏结束点，然后进行反向传播，这个节点显然比其他节点更好，因为它是1/1 (如果我们赢了)和他们的0/0。MCTS如何逃离这个陷阱而不被随机选择的节点所困？

我的意思是，如果我们使用UCB来寻找要扩展的最佳节点，它总是会选择我们首先选择的节点(考虑到结果是成功的)，完全忽略所有其他节点，因为它将是唯一一个非零值的节点。我在这里漏掉了什么，因为显然不是这样的？

发布于 2014-01-24 00:29:41

每次到达节点时，都根据以下规则展开节点：

MCTS的思想是最大限度地实现勘探开发。如果一个子节点以前从未被探索过，那么与它相关的“探索”值是无限的，您将不得不去探索它。然而，一旦您展开了所有子节点，那么您将更频繁地展开具有更高值的子节点(这是“利用”部分)。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21321986

复制

相似问题

问理解MCTS节点选择EN