首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >错误:“副本母版0在训练时耗尽内存并以非零状态退出(SIGKILL)”。

错误:“副本母版0在训练时耗尽内存并以非零状态退出(SIGKILL)”。
EN

Stack Overflow用户
提问于 2018-08-14 12:15:02
回答 2查看 2.9K关注 0票数 2

我正试着用ML-Engine训练一些网络。我的数据库里有大约40000张猫和狗的图片,还有一个大小为~6GB的包围盒。当我试图启动培训时,我有以下错误:

代码语言:javascript
复制
ERROR   2018-08-14 12:05:57 +0200   service
  The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
  To find out more about why your job exited please check the logs: (....) 

我试着从BASIC_GPU配置切换到STANDARD_1,但这并没有改变任何事情。

如果我训练一个较小的数据集,它可以很好地工作,但是对于这个更大的数据集,它总是会因为这个错误而终止。

任何帮助都非常感谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-08-14 23:57:21

通过将所有数据读入RAM,您将耗尽内存。解决方案是要么获得更大的实例类型(例如large_modelcomplex_model_l;更详细的信息请参见机器类型文档 ),要么不一次性读取所有数据。

对于后者,请参见tf.data上的文档。您还可以参考花卉样品,它早于tf.data API。

票数 2
EN

Stack Overflow用户

发布于 2018-08-14 21:34:57

“‘Status 9”错误代码是由于内存不足而发生的。可用的两个选项是移动到高内存机器,如模型或精简数据集。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51841195

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档