首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习:值不准确的MCTS节点选择和扩展阶段的微调

强化学习:值不准确的MCTS节点选择和扩展阶段的微调
EN

Stack Overflow用户
提问于 2018-01-27 12:57:45
回答 1查看 355关注 0票数 1

我正在按照AlphaGo早期版本(AlphaGo扇或AlphaGo Lee)的架构实现一个Go播放程序,例如使用策略网络、值网络和蒙特卡罗树搜索(MCTS)。目前,我已经培训了一个像样的策略网络和一个不敏感的价值网络,而且我没有一个快速推出的策略。所谓“不敏感”,我的意思是,价值网络不能判断复杂的情况,除非情况简明扼要,否则只有50%左右的胜率。价值网络能正确判断简明板(无大打出手)。

利用该策略网络和值网络,实现了MCTS算法(树节点的评价仅由值网络完成)。由于价值网络是不准确的,我担心MCTS在MCTS出现之前很容易陷入糟糕的移动中。为了更好地调整MCTS的超参数,以弥补不准确的值网络带来的不良影响,我有两个问题要问:

  1. 节点选择由arg max (p_value + lambda * p_policy/visit_cnt)完成。对参数lambda进行微调有帮助吗?
  2. 从直觉上讲,我希望MCTS能尽可能深入地探索。在节点扩展阶段,将扩展条件设置为expand a leaf once it is visited a very small number of times, like 3是否有帮助?我应该使用什么扩展方法?

编辑:第二个问题是关于典型的扩展阶段的选择,扩展,评估,备份的MCTS算法。我认为,通过尽可能快地展开,MCTS可以更深入地探索,并给出更精确的近似值。我将参数n设置为how many times a leaf node is visited before it is expanded。我想直观地知道,一个大的n和一个小的n会对MCTS的性能产生什么样的影响。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-27 14:25:27

  1. 节点选择由arg max (p_value + lambda * p_policy/visit_cnt)完成。对参数lambda进行微调有帮助吗?

让我们首先试着深入了解这个公式中的所有术语的作用:

  • p_value:遍历此节点的迭代结束时的所有评估的平均值。这是我们目前根据价值网络在推出结束时的评估来估计这个节点的好坏。
  • p_policy/visit_cnt:根据您的策略网络,对于看起来很好的节点,p_policy会很高,而根据您的策略网络,似乎不太好的节点则会很低。对于我们已经经常访问过的节点,visit_cnt将是高的,对于我们尚未经常访问的节点,则是低的。这个完整的术语使我们最初“倾向”策略网络,但随着时间的推移而远离策略网络(因为根据策略网络良好的节点将具有很高的访问次数)。
  • lambda:确定上述两点的第一项和第二项之间的平衡的参数。如果lambda很高,那么我们将更多地依赖策略网络提供的信息,而更少依赖价值网络提供的信息。如果lambda较低,我们将更快地开始依赖以前的MCTS迭代+值网络评估提供给我们的信息,并减少对策略网络的依赖。

在你的问题中,你已经说过你认为政策网络是体面的,而价值网络并不是真正的信息。因此,如果是这样的话,我将尝试为lambda使用一个高值:如果您认为策略网络比值网络更能提供信息,那么您将希望更多地依赖策略网络而不是值网络,因此您将需要一个高lambda

  1. 从直觉上讲,我希望MCTS能尽可能深入地探索。在节点扩展阶段,是否将扩展条件设置为一次访问一次就展开一片叶子,比如3次帮助?我应该使用什么扩展方法?

在经典的MCTS实现中,扩展阶段通常是相当有限的(例如,每次迭代只扩展一个节点)的唯一原因是内存问题;如果扩展太频繁,树增长得太快,内存不足。

在这些AlphaGo风格的设置(混合深度学习+ MCTS)中,您通常在这些网络中使用更多的计算时间,因此获得的MCTS迭代比没有任何深度学习的原始的纯MCTS算法要少得多(但通常是高质量/信息更丰富的迭代,这弥补了较低的迭代次数)。这种较低的迭代次数大大降低了由于过度热情的扩展导致内存不足的风险,因此我怀疑您可以更积极地进行扩展。扩展过多可能带来的唯一负面影响是内存不足,您会很容易地注意到什么时候会发生这种情况,因为您的程序会崩溃。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48476039

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档