我目前正试图为我的一个项目实现MCTS,但我不确定我是否正确理解节点选择的概念。在游戏开始时,在我随机选择一个动作后,将整棵树展开到一个游戏结束点,然后进行反向传播,这个节点显然比其他节点更好,因为它是1/1 (如果我们赢了)和他们的0/0。MCTS如何逃离这个陷阱而不被随机选择的节点所困?
我的意思是,如果我们使用UCB来寻找要扩展的最佳节点,它总是会选择我们首先选择的节点(考虑到结果是成功的),完全忽略所有其他节点,因为它将是唯一一个非零值的节点。我在这里漏掉了什么,因为显然不是这样的?
发布于 2014-01-24 00:29:41
每次到达节点时,都根据以下规则展开节点:
MCTS的思想是最大限度地实现勘探开发。如果一个子节点以前从未被探索过,那么与它相关的“探索”值是无限的,您将不得不去探索它。然而,一旦您展开了所有子节点,那么您将更频繁地展开具有更高值的子节点(这是“利用”部分)。
https://stackoverflow.com/questions/21321986
复制相似问题