我正在尝试训练一个更快的rccn模型来检测小数位数。我正在使用新发布的tensorflow object detection API,到目前为止,我已经对动物园的一个预先训练好的faster_rcnn_resnet101_coco进行了微调。我所有的训练尝试都得到了精度很高但召回率很低的模型。在每幅图像上的大约120个物体(数字)中,只检测到大约20个物体,但当检测到时,分类是准确的。(此外,我能够在我的裁剪图像上从头开始训练一个简单的convnet,精度很高,所以问题出在模型的检测方面。)在原始图像中,每个数字的平均大小为60x30 (在将图像送入模型之前,调整图像大小后的大小可能约为该大小的一半)。这是一个示例图像,其中包含我所看到的检测框:

对我来说奇怪的是,它如何能够正确地检测相邻的数字,而完全忽略了像素尺寸方面非常相似的其余数字。
我已经尝试过围绕锚框生成和first_stage_max_proposals调整超参数,但到目前为止还没有任何结果得到改善。下面是我使用过的一个示例config文件。我应该尝试调整哪些其他超参数?关于如何诊断问题,还有其他建议吗?我是否应该考虑其他architectures,或者使用faster-rccn和/或固态硬盘,我的任务看起来可行吗?
发布于 2017-08-04 09:23:05
最后,直接的问题是我没有正确使用可视化工具。通过更新visualize_boxes_and_labels_on_image_array的参数,正如Johnathan在评论中所描述的,我能够看到我至少检测到了比我想象的更多的盒子。
发布于 2017-09-14 08:21:34
我检查了你的配置文件,你正在将你的图像分辨率降低到1024。你的手指区域不会包含太多的像素,你会丢失一些信息。我建议使用另一个数据集(较小的图像)来训练模型。例如,你可以裁剪4-4个区域的图像。
如果你有一个好的图形处理器,增加在image_resizer的最大尺寸,但我猜你会用完内存
https://stackoverflow.com/questions/45452376
复制相似问题