首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >AlphaGo Zero中使用的“训练循环”是否与“时代”相同?

AlphaGo Zero中使用的“训练循环”是否与“时代”相同?
EN

Data Science用户
提问于 2020-03-16 00:10:00
回答 1查看 249关注 0票数 2

我对使用从自我播放阶段收集的数据的AlphaGo 0的训练阶段感到困惑。

根据我发现的一个α零零备忘单,训练程序是:

  • 循环从1到1,000:
    • 从过去的500,000小游戏中抽取一批2048集的小样本。
    • 使用这个小批次作为培训的输入(最小化其损失功能)

  • 在这个循环之后,比较当前网络(训练后)和旧网络(训练之前)。

然而,在阅读了文章之后,我没有看到任何关于他们在这些迷你批次中使用多少年代的提及。

问题:

  1. 这1,000次训练迭代是算法的实际时代吗?然后,Keras代码将被翻译为:
代码语言:javascript
复制
network.fit(x_train, y_train, batch_size = 2048, epochs = 1000, ...)
  1. 或者他们真的有一个用于训练的for循环?然后,Keras代码将被翻译为:
代码语言:javascript
复制
for _ in range(1000):
    x_train, y_train = sample_states_from_past_games(data_from_selfplay)
    network.fit(x_train, y_train, batch_size = ???, epochs = ???, ...)

如果这是第二种选择,我想知道他们使用了多少批和几个时期。

EN

回答 1

Data Science用户

发布于 2021-06-01 16:11:08

我认为他们做了第二个选择。如果他们的网络被安装在一小批2,048个州的1,000个周期内,它将被安装到采样的2,048个州。经过训练的网络将不太可能击败旧的网络。

有许多样本候选人。如果我们假设一场比赛的平均回合是150次,样本候选人是75,000,000州。每一次训练迭代都要进行抽样,以反映多个状态。

在这种情况下,batch_size将是2,048,而纪元将是1。(实际上,他们使用了64名工人,批次大小为每名工人32名)。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/69756

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档