首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法使用tensorflow-slim从头开始训练模型

无法使用tensorflow-slim从头开始训练模型
EN

Stack Overflow用户
提问于 2017-03-20 08:59:05
回答 2查看 601关注 0票数 0

我只是遵循了图像分类库的slim教程,并制作了imagenet TFRecord。

training-a-model-from-scracth中,遵循以下代码:

代码语言:javascript
复制
TRAIN_DIR=/home/ywlee/models/slim/results/
DATASET_DIR=/Data_ssd/ILSVRC2012/TFRecord/
python train_image_classifier.py \
  --train_dir=${TRAIN_DIR} \
  --dataset_name=imagenet \
  --dataset_split_name=train \
  --dataset_dir=${DATASET_DIR} \
  --model_name=inception_v3

但是,会发生此错误。

代码语言:javascript
复制
NotFoundError (see above for traceback): Key InceptionV3/Conv2d_3b_1x1/weights not found in checkpoint
         [[Node: save/RestoreV2_51 = RestoreV2[dtypes=[DT_FLOAT], _device="/job:localhost/replica:0/task:0/cpu:0"](_recv_save/Const_0, save/RestoreV2_51/tensor_names, save/RestoreV2_51/shape_and_slices)]]
         [[Node: save/RestoreV2_233/_1359 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/gpu:0", send_device="/job:localhost/replica:0/task:0/cpu:0", send_device_incarnation=1, tensor_name="edge_576_save/RestoreV2_233", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/gpu:0"]()]]

我明白如果我不指明检查点,这个程序在训练中没有任何预先训练的重量。但我不知道为什么会发生这个错误。

第二个问题是,

我不能完全理解克隆,副本,参数服务器(Ps)和工作者的含义,并混淆了tensorflow多gpu手册和瘦。

你能建议如何使用多gpu进行训练吗?

EN

回答 2

Stack Overflow用户

发布于 2017-03-21 08:23:21

似乎在TRAIN_DIR=/home/ywlee/models/slim/results/中已经存在模型试图加载的检查点。尝试使用没有任何检查点的干净目录。

票数 0
EN

Stack Overflow用户

发布于 2017-11-29 10:32:27

Add --num_clones=n可以使用多个图形处理器,如果不能使用,则默认使用一个图形处理器。

清理TRAIN_DIR对我很有用,也许对我有帮助

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42894308

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档