首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >蒙特卡洛树搜索:从推出中获取值

蒙特卡洛树搜索:从推出中获取值
EN

Stack Overflow用户
提问于 2020-05-28 10:48:40
回答 1查看 83关注 0票数 2

我目前正在编写蒙特卡罗树搜索策略游戏AI的实现,并有一个关于推出(模拟阶段)的问题。

该算法的描述表明,在到达终端状态之前,您应该运行模拟,但是当搜索空间很大且时间有限时,这是不切实际的。在我的示例中,我将模拟步骤的数量限制在某个值(如果终止,则提前完成)。

在仿真的每一步,我评估状态,但由于仿真由一系列随机动作组成,在仿真过程中,评估值可以增加或减少。问题是:对于非终端状态模拟,是返回最后的状态评估,还是返回运行期间观察到的最佳状态评估?

EN

回答 1

Stack Overflow用户

发布于 2020-05-28 14:16:15

通常,您将在模拟结束时使用该值。但是,MCTS经常适用于许多不同的领域,所以您可以自由地调整它,使您能够获得最佳的性能。

据我所知,这个想法是为amazons(ftp://nozdr.ru/biblio/kolxoz/Cs/CsLn/Computers%20and%20Games,%206%20 20conf.,%20 to %202008(LNCS5131,%20 20Springer,%202008%29(ISBN%209783540876076%29(286s%29.pdf#page=24). )首次提出的。在应用评价函数之前,他们只使用了“约6步”的随机游走。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62062887

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档