首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在谷歌的长期运行会议结束后,用剩余的时代来训练模型呢?

如何在谷歌的长期运行会议结束后,用剩余的时代来训练模型呢?
EN

Stack Overflow用户
提问于 2019-01-28 12:25:41
回答 2查看 3.1K关注 0票数 2

我正在使用谷歌Colab训练我的三维卷积神经网络60个时代,但当它达到57个时代,我的会议结束。重新连接后,训练从第一阶段开始。

我应该做什么来训练我的模型后,我的未完成的时代,我的会议已经结束谷歌合作?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-02-01 00:40:26

Colaboratory的常见问题包括以下语句:

  1. 是什么?是一种机器学习、教育和研究的研究工具。
  2. 越野车是为了互动使用。可能会停止长期运行的后台计算,特别是在GPU上。..。我们鼓励那些希望使用本地运行时运行连续或长时间运行的计算的用户。

训练ML模型通常需要长时间的计算。因此,我所考虑的选择是:

  1. 按照建议使用本地运行时。这可能是一个云VM或您的笔记本电脑。
  2. 使用云DataLab -您可以控制(并支付) google中的VM资源。
  3. 每个检查点都会将检查点和权重保存到持久存储中。见I/O食谱。如果重新设置了笔记本,则从检查点重新启动培训。

选项3可能是最容易开始,因为你的训练几乎完成了在科拉博尔特。这取决于您正在使用的库,以及它们是否支持这一点。

如果您正在运行更大的计算,那么请考虑使用本地运行时或DataLab。

票数 1
EN

Stack Overflow用户

发布于 2019-02-01 06:16:05

过了一段时间后,您将不得不保存检查点。如果您的时代执行得很快,您可以在5-10个时代之后保存模型,否则可以在每个时代之后保存它。并检查代码以重新读取最新的检查点(基于某些命名约定)。现在这有什么问题。

  1. 因为这是close,而且它是免费的,他们不会给你一个专用的GPU实例,因此它可以在你刷新浏览器/关闭浏览器/失去互联网连接等任何时候断开连接。
  2. 这样你的临时存储空间就分配给你了。
  3. 此外,协作程序还为您的数据和模型提供了有限的存储空间。

因此,您需要将检查点保存在某个“持久”存储上。协作支持谷歌驱动。您可以检查如何将文件保存在那里。此外,你还必须检查如何从那里阅读。

或者你是否在寻找其他的选择。AWS spot实例可能是一个合理的选择(但是它是付费的,如果您可以从某个地方获得一些学生学分,您可以使用它)。值得一提的是,Colab也是Google的一个spot实例。你也可以去www.crestle.com,每小时3美分。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54402005

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档