文章/答案/技术大牛

发布

社区首页 >问答首页 >AlphaGo Zero中使用的“训练循环”是否与“时代”相同？

问AlphaGo Zero中使用的“训练循环”是否与“时代”相同？
EN

Data Science用户

提问于 2020-03-16 00:10:00

回答 1查看 249关注 0票数 2

我对使用从自我播放阶段收集的数据的AlphaGo 0的训练阶段感到困惑。

根据我发现的一个α零零备忘单，训练程序是：

循环从1到1,000：
- 从过去的500,000小游戏中抽取一批2048集的小样本。
- 使用这个小批次作为培训的输入(最小化其损失功能)
在这个循环之后，比较当前网络(训练后)和旧网络(训练之前)。

然而，在阅读了文章之后，我没有看到任何关于他们在这些迷你批次中使用多少年代的提及。

问题：

这1,000次训练迭代是算法的实际时代吗？然后，Keras代码将被翻译为：

network.fit(x_train, y_train, batch_size = 2048, epochs = 1000, ...)

或者他们真的有一个用于训练的for循环？然后，Keras代码将被翻译为：

for _ in range(1000):
    x_train, y_train = sample_states_from_past_games(data_from_selfplay)
    network.fit(x_train, y_train, batch_size = ???, epochs = ???, ...)

如果这是第二种选择，我想知道他们使用了多少批和几个时期。

tensorflow

training

deepmind

deep-learning

keras

回答 1

Data Science用户

发布于 2021-06-01 16:11:08

我认为他们做了第二个选择。如果他们的网络被安装在一小批2,048个州的1,000个周期内，它将被安装到采样的2,048个州。经过训练的网络将不太可能击败旧的网络。

有许多样本候选人。如果我们假设一场比赛的平均回合是150次，样本候选人是75,000,000州。每一次训练迭代都要进行抽样，以反映多个状态。

在这种情况下，batch_size将是2,048，而纪元将是1。(实际上，他们使用了64名工人，批次大小为每名工人32名)。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/69756

复制

相似问题

问AlphaGo Zero中使用的“训练循环”是否与“时代”相同？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AlphaGo Zero中使用的“训练循环”是否与“时代”相同？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AlphaGo Zero中使用的“训练循环”是否与“时代”相同？
EN