问Tensorflow对象检测API -在训练期间不断增加RAM使用量
EN

Stack Overflow用户

提问于 2018-05-25 03:00:50

回答 1查看 1.2K关注 0票数 0

环境：

Tensorflow 1.8-gpu (官方坞站容器)
nVidia 1080ti GPU
64G内存
输入图像大小仅为300x300，其中只有60个用于测试

在训练期间，观察不断增加的内存使用量(从"top“命令开始)

step-10使用39G
step-200使用50G
step-2000 use 59G
...
OOM

使用"ssd_mobilenet_v2“管道，减少批处理大小、队列大小和输入读取器。

不确定为什么内存使用量一直在累积，然后它变成了OOM。系统是否存储了权重以外的其他内容，或者在某个地方存在内存泄漏？内存使用量应该在几个步骤后保持不变？

model {
  ssd {
    num_classes: 2
    image_resizer {
      fixed_shape_resizer {
        height: 300
        width: 300
      }
    }
  }
}

train_config {
  batch_size: 10
  num_steps: 200000
  fine_tune_checkpoint_type: "detection"
  batch_queue_capacity: 10
  num_batch_queue_threads: 10
  prefetch_queue_capacity: 10
}

train_input_reader {
  queue_capacity: 10
  min_after_dequeue: 10
}
eval_config {
  num_examples: 1
  max_evals: 10
  use_moving_averages: false
}
eval_input_reader {
  queue_capacity: 10
  min_after_dequeue: 10
}

tensorflow

object-detection-api

回答 1

Stack Overflow用户

发布于 2018-05-30 09:37:03

我在一个类似的系统上遇到了类似的问题。我通过试验不同的tf和CUDA版本解决了这个问题。你的OOM崩溃错误是什么样子的？

您的批处理大小对于1080和64 GB的RAM来说很好。

我可以推荐的另一件事是尝试v1检查点。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50516424

复制

相似问题

问Tensorflow对象检测API -在训练期间不断增加RAM使用量
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tensorflow对象检测API -在训练期间不断增加RAM使用量EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tensorflow对象检测API -在训练期间不断增加RAM使用量
EN