我正在使用OCR通过tess-two项目开发一个使用Tesseract Libs的安卓应用程序,就像我在这里看到的:http://gaut.am/making-an-ocr-android-app-using-tesseract/
这个应用运行得很好,但我正在修复与照片内容一起返回的字符串,有时会带有陌生人的字符。示例:我正在阅读这个:www.caelum.com.br,并收到类似如下的内容:r ' . ,wlñzf . 94' kzl 5. vsmNs/.caelumcombr
在搜索中,我配置了这个:baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
但我认为这会变得更糟。
我想读葡萄牙语和英语的课文。所以,我下载了每种语言的训练数据,并按我的意愿使用它,但是这些陌生的字符与编码项目有关吗?
感谢您的帮助:)
发布于 2012-11-28 17:45:41
Tesseract仅识别包含文本且仅包含文本的图像的文本。只包含文本的图像将被它准确识别,您也可以获得良好的准确性。然而,Tesseract为图像+文本识别提供了乱码输出。我没有在这个识别上工作,所以不能进一步帮助你。
因此,您的问题应该是如何裁剪图像部分,以便只从图像中提取文本部分。就像这样,Tesseract可以很好地识别,并在输出中提供所需的文本。
谢谢。
https://stackoverflow.com/questions/13512402
复制相似问题