我正试着用ML-Engine训练一些网络。我的数据库里有大约40000张猫和狗的图片,还有一个大小为~6GB的包围盒。当我试图启动培训时,我有以下错误:
ERROR 2018-08-14 12:05:57 +0200 service
The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
To find out more about why your job exited please check the logs: (....) 我试着从BASIC_GPU配置切换到STANDARD_1,但这并没有改变任何事情。
如果我训练一个较小的数据集,它可以很好地工作,但是对于这个更大的数据集,它总是会因为这个错误而终止。
任何帮助都非常感谢。
https://stackoverflow.com/questions/51841195
复制相似问题