首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是使用OCR软件还是使用自制CNN进行文档处理?

是使用OCR软件还是使用自制CNN进行文档处理?
EN

Stack Overflow用户
提问于 2018-10-01 18:02:23
回答 1查看 127关注 0票数 1

我现在左右为难。如果您只有一种类型的发票/文档,并且您有一个特定的字段要从该发票中处理并在其他地方使用(该字段恰好是手写数字,有时用短划线或斜杠书写),您会使用一些OCR软件或构建自己的CNN来识别这些数字吗?您希望从OCR中获得多高的准确性?你的CNN是否会更准确,因为你只对特定类型的数字书写感兴趣,具有特定的图像尺寸,等等。在给定的情况下,哪种方式更好?请记住,您不会以任何其他方式使用它,或者任何其他用于手写数字识别的地方,并且您已经有多达100k或更多的文档被人类复制到计算机上,并且您可以将其用于训练和测试。

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2018-10-01 18:19:53

我肯定会选择基于CNN的解决方案。由于您的文档结构是一致的:

  1. 使用标准计算机视觉方法提取文档的所需部分
  2. 在一组数千个文档的注释集上训练CNN。你甚至应该能够微调在MNIST上训练的现有CNN,这将需要更少的训练图像。

这种方法应该可以为您提供>99%的准确率,而不需要太多的努力。OCR解决方案的准确性实际上取决于您使用的库和实现的预处理。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52588714

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档