我将我的模型上传到ML-engine,当我试图进行预测时,我会收到以下错误:
ERROR: (gcloud.ml-engine.predict) HTTP request failed. Response: { "error": {
"code": 429,
"message": "Prediction server is out of memory, possibly because model size is too big.",
"status": "RESOURCE_EXHAUSTED" } }我的型号是151.1 MB。我已经做了谷歌云网站的所有建议行动,如量化。是否有可能的解决方案或任何其他我可以做的事情,使它发挥作用?
谢谢
发布于 2018-03-15 18:57:54
通常,这样大小的模型不应该导致OOM。由于TF进行了大量的延迟初始化,在初始化数据结构的第一次请求之前,将不会检测到一些OOM。在极少数情况下,某些图形会在内存中爆炸10倍,从而导致OOM。
( 1)你是否一致地看到了预测误差?由于Tensorflow调度节点的方式,同一图的内存使用可能因运行而不同。一定要多次运行预测,看看每次都是429次。
2)请确保151.1MB是您的SavedModel目录的大小。
3)您还可以在本地调试峰值内存,例如,在运行top时使用gcloud ml-engine local predict,或者将模型加载到停靠容器中的内存中,并使用docker或其他方式监视内存使用情况。您可以尝试tensorflow进行调试(basic)并发布结果。
4)如果您发现内存问题是持久的,请联系cloudml- make @google.com以获得进一步的帮助,确保您包括您的项目编号和相关帐户,以便进一步调试。
https://stackoverflow.com/questions/49304175
复制相似问题