首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >提高扫描文档的OCR精度

提高扫描文档的OCR精度
EN

Stack Overflow用户
提问于 2011-01-11 14:02:39
回答 1查看 2.3K关注 0票数 1

我正在使用标准的兄弟A3多功能扫描许多A3文档,然后使用FineReader Pro对图像进行OCR‘。

然而,我得到了很多错误的字符识别,和许多非字母数字奇怪的字符。

有人能给我任何建议,以编程方式提高OCR的准确性,要么对扫描图像进行预处理,要么对识别的文本进行后处理?

编辑:找到一个pdf样本.它包括一些样本图像,从中我得到了最糟糕的结果。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-01-12 01:58:13

你有一个样本图像,你可以张贴在某处,然后我们可以迅速告诉你是什么导致了你的大部分问题。FineReader是更好的OCR引擎之一,所以肯定有一些原因可以解释为什么你的结果会很差。

它可能与对比度和阈值设置差,图像倾斜,扫描仪中的脏辊,复杂的彩色背景,抖动的背景,字体尺寸太小,扫描dpi太低等有关。

在看到附图后,有几个小问题。

  1. 背景页上有很多肮脏的斑点。FineReader似乎在你的图像上做了一个合理的工作。
  2. 有一些轻微的倾斜,但这并没有造成和问题。
  3. FineReader正在与粗体的、高的、用于列标题的Arial类型字体混淆。 4一个大的问题似乎是页面的底部区域,那里的对比度差,图像模糊。这似乎是扫描仪的一个问题,但可能是由于打印问题。

印刷很差,我猜这是一份报纸的扫描。大多数错误都是由于扫描问题造成的,因此很难以编程方式改进结果。

首先,我会尝试用稍微高一点的分辨率来扫描灰度图像,看看这是否有帮助。FineReader可以很好地处理灰度图像。如果您必须有一个B/W图像,然后看看扫描仪驱动程序是否包括一个设置的动态阈值,并打开它。

对于任何OCR引擎来说,您的图像都不是一个容易的任务。如果你能提高扫描效果,你会得到更好的结果。第3页右下角有很大的噪音。

您使用的是什么版本的FineReasder?FR10可能会提供比以前版本更好的结果。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4658407

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档