我目前正在编写蒙特卡罗树搜索策略游戏AI的实现,并有一个关于推出(模拟阶段)的问题。
该算法的描述表明,在到达终端状态之前,您应该运行模拟,但是当搜索空间很大且时间有限时,这是不切实际的。在我的示例中,我将模拟步骤的数量限制在某个值(如果终止,则提前完成)。
在仿真的每一步,我评估状态,但由于仿真由一系列随机动作组成,在仿真过程中,评估值可以增加或减少。问题是:对于非终端状态模拟,是返回最后的状态评估,还是返回运行期间观察到的最佳状态评估?
发布于 2020-05-28 14:16:15
通常,您将在模拟结束时使用该值。但是,MCTS经常适用于许多不同的领域,所以您可以自由地调整它,使您能够获得最佳的性能。
据我所知,这个想法是为amazons(ftp://nozdr.ru/biblio/kolxoz/Cs/CsLn/Computers%20and%20Games,%206%20 20conf.,%20 to %202008(LNCS5131,%20 20Springer,%202008%29(ISBN%209783540876076%29(286s%29.pdf#page=24). )首次提出的。在应用评价函数之前,他们只使用了“约6步”的随机游走。
https://stackoverflow.com/questions/62062887
复制相似问题