我发现所有的强化学习算法都需要在第一手中设置env.seed(#),我想知道背后的原因。
非常感谢!
发布于 2019-03-16 04:53:57
我工作过的所有健身房环境都使用过numpy's random number generator。您当然不需要自己播种它,因为它将在当前时钟时间回退到播种。只要您担心可重现性,就会手动指定种子。如果你不给你的RNG相同的种子,它将产生一个不同的随机数序列。由于机器学习是由经验驱动的,因此重复性非常重要。
https://stackoverflow.com/questions/55187826
复制相似问题