我试图使用Tesseract-OCR来检测包含纯文本的图像文本,但是这些文本有一个名为Journal的手写字体。
示例:

结果并不是最好的:
马克西玛!尺寸W (35)
是否有可能改进结果,或者更确切地说是得到确切的结果?
发布于 2012-01-10 09:18:06
正如Andrew提到的,对于T字母执行OCR将是非常困难的,因为它与许多下一个字符相交。
为了提高结果,您可能需要尝试一个更精确的SDK。看看ABBYY云OCR,它是ABBYY最近推出的一款基于云的OCR。这是在测试版,所以现在它完全可以自由使用。我工作@ ABBYY,如有必要,可以向您提供有关我们产品的更多信息。我已经发送了您附在SDK上的图像,并得到了以下响应:
Maximal size: lall (35)发布于 2012-01-07 02:53:16
我很惊讶Tesseract做得这么好。经过一点训练,你应该能够训练小写字母“l”才能被正确识别。
您遇到的主要问题是大T字符的顶部。水平线延伸到2(可能是3)其他字符单元格,当它试图分割字符以进行识别时,这将给任何OCR引擎带来问题。在这种情况下,培训可能会有所帮助。
下一个问题是。而且:它们非常轻/薄,甚至在OCR开始之前就已经被图像预处理移除了。
总的来说,使用Tesseract提高结果的唯一机会是调查培训。以下是一些可能有帮助的链接。
https://stackoverflow.com/questions/8735105
复制相似问题