我对使用从自我播放阶段收集的数据的AlphaGo 0的训练阶段感到困惑。
根据我发现的一个α零零备忘单,训练程序是:
然而,在阅读了文章之后,我没有看到任何关于他们在这些迷你批次中使用多少年代的提及。
问题:
network.fit(x_train, y_train, batch_size = 2048, epochs = 1000, ...)for _ in range(1000):
x_train, y_train = sample_states_from_past_games(data_from_selfplay)
network.fit(x_train, y_train, batch_size = ???, epochs = ???, ...)如果这是第二种选择,我想知道他们使用了多少批和几个时期。
发布于 2021-06-01 16:11:08
我认为他们做了第二个选择。如果他们的网络被安装在一小批2,048个州的1,000个周期内,它将被安装到采样的2,048个州。经过训练的网络将不太可能击败旧的网络。
有许多样本候选人。如果我们假设一场比赛的平均回合是150次,样本候选人是75,000,000州。每一次训练迭代都要进行抽样,以反映多个状态。
在这种情况下,batch_size将是2,048,而纪元将是1。(实际上,他们使用了64名工人,批次大小为每名工人32名)。
https://datascience.stackexchange.com/questions/69756
复制相似问题