首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OCR识别奇怪的字符。为什么?

OCR识别奇怪的字符。为什么?
EN

Stack Overflow用户
提问于 2012-11-22 20:04:33
回答 1查看 406关注 0票数 1

我正在使用OCR通过tess-two项目开发一个使用Tesseract Libs的安卓应用程序,就像我在这里看到的:http://gaut.am/making-an-ocr-android-app-using-tesseract/

这个应用运行得很好,但我正在修复与照片内容一起返回的字符串,有时会带有陌生人的字符。示例:我正在阅读这个:www.caelum.com.br,并收到类似如下的内容:r ' . ,wlñzf . 94' kzl 5. vsmNs/.caelumcombr

在搜索中,我配置了这个:baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");

但我认为这会变得更糟。

我想读葡萄牙语和英语的课文。所以,我下载了每种语言的训练数据,并按我的意愿使用它,但是这些陌生的字符与编码项目有关吗?

感谢您的帮助:)

EN

回答 1

Stack Overflow用户

发布于 2012-11-28 17:45:41

Tesseract仅识别包含文本且仅包含文本的图像的文本。只包含文本的图像将被它准确识别,您也可以获得良好的准确性。然而,Tesseract为图像+文本识别提供了乱码输出。我没有在这个识别上工作,所以不能进一步帮助你。

因此,您的问题应该是如何裁剪图像部分,以便只从图像中提取文本部分。就像这样,Tesseract可以很好地识别,并在输出中提供所需的文本。

谢谢。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13512402

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档