根据我的理解,MCTS中的播放或模拟阶段的目标是获得一个结果,并在反向传播期间奖励或惩罚从根开始的路径上的节点。(如有错误,请指正)
我的问题是,我是否可以使用领域知识启发式来获得这个结果,而不是真正地模拟游戏到最后。
我问的原因是,我正在做一些类似于寻路的事情,目标是找到通往目标状态(节点)的路径,这意味着在我的情况下,从头到尾模拟游戏是非常困难的。
发布于 2016-08-23 03:33:49
是的,你当然可以。我个人在一些游戏领域做过这样的事情,在这些领域中,在到达终端状态之前,一直运行适量的模拟是不可行的。
如果您总是提前终止模拟并使用启发式评估函数对其进行评估,您将失去UCT (最常见的MCTS实现)在给定无限处理时间的情况下找到最佳操作的保证,但实际上您很少有无限的处理时间。在可以运行足够的模拟直到结束的领域中,这可能是有害的(除非它是一个非常好的启发式函数,并且允许您运行更多的模拟)。
发布于 2016-09-30 13:57:06
我找到了这篇论文"Monte-Carlo Planning for Pathfinding in Real-Time Strategy Games“。它使用欧几里德距离的倒数作为奖励。
https://stackoverflow.com/questions/38597244
复制相似问题