我想训练一个CNN,它可以实时地对大分辨率图像进行推理。CNN必须阅读由5位数字组成的手写数字。
到目前为止,我在MNIST上训练了LeNet-5、Overfeat和Yolo .
LeNet-5给了我一个很好的精度,但是通过一种简单的滑动窗口方法,我在FullHD图像上得到了4000个窗口(虽然有很大的进步),这还不够快。(CPU上的一个窗口为10 on >40 per每幅图像)
所以我研究了一些更有效的滑动窗口的方法,并遇到了Overfeat。它将整个图像转换为类维输出数组windowsX、windowsY和类.这里的好处是,不需要多次计算重叠区域。现在,我正试图在slim的帮助下训练和评估这个网络。
最后,关于我的问题:
是否有更好的方法或CNN来解决这个问题?
谢谢!
发布于 2020-04-02 10:42:54
https://stackoverflow.com/questions/60376444
复制相似问题