首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tensorflow对象检测API -在训练期间不断增加RAM使用量

Tensorflow对象检测API -在训练期间不断增加RAM使用量
EN

Stack Overflow用户
提问于 2018-05-25 03:00:50
回答 1查看 1.2K关注 0票数 0

环境:

  • Tensorflow 1.8-gpu (官方坞站容器)
  • nVidia 1080ti GPU
  • 64G内存
  • 输入图像大小仅为300x300,其中只有60个用于测试

在训练期间,观察不断增加的内存使用量(从"top“命令开始)

  • step-10使用39G
  • step-200使用50G
  • step-2000 use 59G
  • ...
  • OOM

使用"ssd_mobilenet_v2“管道,减少批处理大小、队列大小和输入读取器。

不确定为什么内存使用量一直在累积,然后它变成了OOM。系统是否存储了权重以外的其他内容,或者在某个地方存在内存泄漏?内存使用量应该在几个步骤后保持不变?

代码语言:javascript
复制
model {
  ssd {
    num_classes: 2
    image_resizer {
      fixed_shape_resizer {
        height: 300
        width: 300
      }
    }
  }
}

train_config {
  batch_size: 10
  num_steps: 200000
  fine_tune_checkpoint_type: "detection"
  batch_queue_capacity: 10
  num_batch_queue_threads: 10
  prefetch_queue_capacity: 10
}

train_input_reader {
  queue_capacity: 10
  min_after_dequeue: 10
}
eval_config {
  num_examples: 1
  max_evals: 10
  use_moving_averages: false
}
eval_input_reader {
  queue_capacity: 10
  min_after_dequeue: 10
}
EN

回答 1

Stack Overflow用户

发布于 2018-05-30 09:37:03

我在一个类似的系统上遇到了类似的问题。我通过试验不同的tf和CUDA版本解决了这个问题。你的OOM崩溃错误是什么样子的?

您的批处理大小对于1080和64 GB的RAM来说很好。

我可以推荐的另一件事是尝试v1检查点。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50516424

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档