环境:
在训练期间,观察不断增加的内存使用量(从"top“命令开始)
使用"ssd_mobilenet_v2“管道,减少批处理大小、队列大小和输入读取器。
不确定为什么内存使用量一直在累积,然后它变成了OOM。系统是否存储了权重以外的其他内容,或者在某个地方存在内存泄漏?内存使用量应该在几个步骤后保持不变?
model {
ssd {
num_classes: 2
image_resizer {
fixed_shape_resizer {
height: 300
width: 300
}
}
}
}
train_config {
batch_size: 10
num_steps: 200000
fine_tune_checkpoint_type: "detection"
batch_queue_capacity: 10
num_batch_queue_threads: 10
prefetch_queue_capacity: 10
}
train_input_reader {
queue_capacity: 10
min_after_dequeue: 10
}
eval_config {
num_examples: 1
max_evals: 10
use_moving_averages: false
}
eval_input_reader {
queue_capacity: 10
min_after_dequeue: 10
}发布于 2018-05-30 09:37:03
我在一个类似的系统上遇到了类似的问题。我通过试验不同的tf和CUDA版本解决了这个问题。你的OOM崩溃错误是什么样子的?
您的批处理大小对于1080和64 GB的RAM来说很好。
我可以推荐的另一件事是尝试v1检查点。
https://stackoverflow.com/questions/50516424
复制相似问题