文章/答案/技术大牛

发布

社区首页 >问答首页 >如何提高OCR结果

问如何提高OCR结果
EN

Stack Overflow用户

提问于 2015-09-29 11:38:32

回答 1查看 837关注 0票数 1

我试图改进OpenSource OCR软件的结果。我正在使用tessaract，因为我发现它仍然产生比gocr更好的效果，但是由于输入质量差，它有很大的问题。所以我试着用我在网上找到的各种工具来预演这张照片：

开纸
弗雷德的ImageMagick脚本: TEXTCLEANER
使用GIMP

但是我无法用这个糟糕的测试文档获得好的结果：(实际上只是为了测试，我不需要包含这个文件) http://9gag.com/gag/aBrG8w2/employee-handbook

这个在线服务在这个测试文档中运行得非常好：http://www.onlineocr.net/。

我想知道是否可以使用智能预处理来获得与tesseract类似的结果。与商业引擎相比，OpenSource的OCR引擎真的那么糟糕吗？甚至谷歌也用tesseract扫描文档，所以我期待更多.

open-source

ocr

tesseract

回答 1

Stack Overflow用户

发布于 2015-09-29 18:30:56

Tesseract的识别精度比最好的商业FineReader (Abbyy )稍低一点，但由于它的本质，它更灵活。这种灵活性有时需要进行一些预处理，因为Tesseract不可能管理每一种情况。其实是谷歌使用，因为谷歌是它的主要赞助商！

您可以做的第一件事是尝试展开文本，以便至少有20个像素宽的字符或更多字符。由于Tesseract使用字符边界的主要部分作为特征，与其他算法相比，它需要有更大的字符大小。

您可以尝试的另一件事，总是引用您提到的测试文档，是使用自适应阈值方法对图像进行二值化(在这里您可以找到一些关于https://dsp.stackexchange.com/a/2504的信息)，因为光照中存在一些变化。Tesseract在内部对图像进行二进制化，但是当它做不到这一点时(它类似于这里的示例用Tesseract提高产品质量，您还可以找到一些其他有用的信息)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32842945

复制

相似问题

问如何提高OCR结果
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何提高OCR结果EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何提高OCR结果
EN