我正在使用标准的兄弟A3多功能扫描许多A3文档,然后使用FineReader Pro对图像进行OCR‘。
然而,我得到了很多错误的字符识别,和许多非字母数字奇怪的字符。
有人能给我任何建议,以编程方式提高OCR的准确性,要么对扫描图像进行预处理,要么对识别的文本进行后处理?
编辑:找到一个pdf样本.它包括一些样本图像,从中我得到了最糟糕的结果。
发布于 2011-01-12 01:58:13
你有一个样本图像,你可以张贴在某处,然后我们可以迅速告诉你是什么导致了你的大部分问题。FineReader是更好的OCR引擎之一,所以肯定有一些原因可以解释为什么你的结果会很差。
它可能与对比度和阈值设置差,图像倾斜,扫描仪中的脏辊,复杂的彩色背景,抖动的背景,字体尺寸太小,扫描dpi太低等有关。
在看到附图后,有几个小问题。
印刷很差,我猜这是一份报纸的扫描。大多数错误都是由于扫描问题造成的,因此很难以编程方式改进结果。
首先,我会尝试用稍微高一点的分辨率来扫描灰度图像,看看这是否有帮助。FineReader可以很好地处理灰度图像。如果您必须有一个B/W图像,然后看看扫描仪驱动程序是否包括一个设置的动态阈值,并打开它。
对于任何OCR引擎来说,您的图像都不是一个容易的任务。如果你能提高扫描效果,你会得到更好的结果。第3页右下角有很大的噪音。
您使用的是什么版本的FineReasder?FR10可能会提供比以前版本更好的结果。
https://stackoverflow.com/questions/4658407
复制相似问题