文章/答案/技术大牛

发布

社区首页 >问答首页 >错误：“副本母版0在训练时耗尽内存并以非零状态退出(SIGKILL)”。

问错误：“副本母版0在训练时耗尽内存并以非零状态退出(SIGKILL)”。
EN

Stack Overflow用户

提问于 2018-08-14 12:15:02

回答 2查看 2.9K关注 0票数 2

我正试着用ML-Engine训练一些网络。我的数据库里有大约40000张猫和狗的图片，还有一个大小为~6GB的包围盒。当我试图启动培训时，我有以下错误：

ERROR   2018-08-14 12:05:57 +0200   service
  The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
  To find out more about why your job exited please check the logs: (....)

我试着从BASIC_GPU配置切换到STANDARD_1，但这并没有改变任何事情。

如果我训练一个较小的数据集，它可以很好地工作，但是对于这个更大的数据集，它总是会因为这个错误而终止。

任何帮助都非常感谢。

python

google-cloud-platform

google-cloud-ml

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-08-14 23:57:21

通过将所有数据读入RAM，您将耗尽内存。解决方案是要么获得更大的实例类型(例如large_model或complex_model_l；更详细的信息请参见机器类型文档 )，要么不一次性读取所有数据。

对于后者，请参见tf.data上的文档。您还可以参考花卉样品，它早于tf.data API。

票数 2

Stack Overflow用户

发布于 2018-08-14 21:34:57

“‘Status 9”错误代码是由于内存不足而发生的。可用的两个选项是移动到高内存机器，如模型或精简数据集。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51841195

复制

相似问题

问错误：“副本母版0在训练时耗尽内存并以非零状态退出(SIGKILL)”。
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问错误：“副本母版0在训练时耗尽内存并以非零状态退出(SIGKILL)”。EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问错误：“副本母版0在训练时耗尽内存并以非零状态退出(SIGKILL)”。
EN