问OCR识别奇怪的字符。为什么？
EN

Stack Overflow用户

提问于 2012-11-22 20:04:33

回答 1查看 406关注 0票数 1

我正在使用OCR通过tess-two项目开发一个使用Tesseract Libs的安卓应用程序，就像我在这里看到的：http://gaut.am/making-an-ocr-android-app-using-tesseract/

这个应用运行得很好，但我正在修复与照片内容一起返回的字符串，有时会带有陌生人的字符。示例:我正在阅读这个：www.caelum.com.br，并收到类似如下的内容：r ' . ,wlñzf . 94' kzl 5. vsmNs/.caelumcombr

在搜索中，我配置了这个：baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");

但我认为这会变得更糟。

我想读葡萄牙语和英语的课文。所以，我下载了每种语言的训练数据，并按我的意愿使用它，但是这些陌生的字符与编码项目有关吗？

感谢您的帮助:)

发布于 2012-11-28 17:45:41

Tesseract仅识别包含文本且仅包含文本的图像的文本。只包含文本的图像将被它准确识别，您也可以获得良好的准确性。然而，Tesseract为图像+文本识别提供了乱码输出。我没有在这个识别上工作，所以不能进一步帮助你。

因此，您的问题应该是如何裁剪图像部分，以便只从图像中提取文本部分。就像这样，Tesseract可以很好地识别，并在输出中提供所需的文本。

谢谢。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13512402

复制

相似问题

问OCR识别奇怪的字符。为什么？EN