MCTS算法的步骤如下:
我的问题是第三步,模拟。我们已经扩展了我们的决策树与一个新的节点,并模拟其余的动作,直到游戏结束。这种模拟可分为两部分:
将这两个阶段分隔开来的MCTS树线的可视化见本出版物的图1:http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf。
我对第一部分感到困惑。为了模拟游戏,我们首先在第一个节点采取我们的树策略,然后对手移动,然后再采取另一个树策略移动,等等,直到我们到达在算法的步骤2中创建的节点。在我们到达树线之前,我们应该让对手在我们的树策略移动之间做些什么?一个随机移动的对手可以做一个动作,阻止我们采取我们的下一个树策略移动。还是我还有别的误会?
发布于 2017-06-23 19:52:51
新节点位于决策树的底部。此决策树表示和播放机的移动。当您在树中的一个节点时,树包含以该位置结束的确切的移动序列。
其余的动作是根据比赛步骤来模拟的。
在实际操作中,计算机通常不需要继续模拟第一阶段的移动。相反,它只是将位置缓存在节点上,然后可以从该点开始反复进行播放模拟。
https://stackoverflow.com/questions/44728600
复制相似问题