我正在使用谷歌Colab训练我的三维卷积神经网络60个时代,但当它达到57个时代,我的会议结束。重新连接后,训练从第一阶段开始。
我应该做什么来训练我的模型后,我的未完成的时代,我的会议已经结束谷歌合作?
发布于 2019-02-01 00:40:26
Colaboratory的常见问题包括以下语句:
训练ML模型通常需要长时间的计算。因此,我所考虑的选择是:
选项3可能是最容易开始,因为你的训练几乎完成了在科拉博尔特。这取决于您正在使用的库,以及它们是否支持这一点。
如果您正在运行更大的计算,那么请考虑使用本地运行时或DataLab。
发布于 2019-02-01 06:16:05
过了一段时间后,您将不得不保存检查点。如果您的时代执行得很快,您可以在5-10个时代之后保存模型,否则可以在每个时代之后保存它。并检查代码以重新读取最新的检查点(基于某些命名约定)。现在这有什么问题。
因此,您需要将检查点保存在某个“持久”存储上。协作支持谷歌驱动。您可以检查如何将文件保存在那里。此外,你还必须检查如何从那里阅读。
或者你是否在寻找其他的选择。AWS spot实例可能是一个合理的选择(但是它是付费的,如果您可以从某个地方获得一些学生学分,您可以使用它)。值得一提的是,Colab也是Google的一个spot实例。你也可以去www.crestle.com,每小时3美分。
https://stackoverflow.com/questions/54402005
复制相似问题