我试图改进OpenSource OCR软件的结果。我正在使用tessaract,因为我发现它仍然产生比gocr更好的效果,但是由于输入质量差,它有很大的问题。所以我试着用我在网上找到的各种工具来预演这张照片:
但是我无法用这个糟糕的测试文档获得好的结果:(实际上只是为了测试,我不需要包含这个文件) http://9gag.com/gag/aBrG8w2/employee-handbook
这个在线服务在这个测试文档中运行得非常好:http://www.onlineocr.net/。
我想知道是否可以使用智能预处理来获得与tesseract类似的结果。与商业引擎相比,OpenSource的OCR引擎真的那么糟糕吗?甚至谷歌也用tesseract扫描文档,所以我期待更多.
发布于 2015-09-29 18:30:56
Tesseract的识别精度比最好的商业FineReader (Abbyy )稍低一点,但由于它的本质,它更灵活。这种灵活性有时需要进行一些预处理,因为Tesseract不可能管理每一种情况。其实是谷歌使用,因为谷歌是它的主要赞助商!
您可以做的第一件事是尝试展开文本,以便至少有20个像素宽的字符或更多字符。由于Tesseract使用字符边界的主要部分作为特征,与其他算法相比,它需要有更大的字符大小。
您可以尝试的另一件事,总是引用您提到的测试文档,是使用自适应阈值方法对图像进行二值化(在这里您可以找到一些关于https://dsp.stackexchange.com/a/2504的信息),因为光照中存在一些变化。Tesseract在内部对图像进行二进制化,但是当它做不到这一点时(它类似于这里的示例用Tesseract提高产品质量,您还可以找到一些其他有用的信息)
https://stackoverflow.com/questions/32842945
复制相似问题