我正在尝试改进我制作的OCR程序,以读取我正在使用的某个图像的布局。现在,我希望我的OCR程序只能识别数字0-9。
我试着遵循问题的解决方案:
Limit characters tesseract is looking for
但是我陷入了必须调用tesseract的部分:
tesseract input.tif output nobatch letters 这是怎么回事?
发布于 2012-07-03 15:55:24
前段时间我在SO中发布了一些关于tesseract的内容:请参阅Tesseract OCR Library - Learning Font。值得注意的是,有一个link to tesseract training,它将告诉你如何限制你的字符集和描述你的歧义。
发布于 2016-11-14 09:27:47
我在使用python时也遇到了同样的问题,假设更多的读者可能会这样做。
从这里:https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
我成功地使用了:
图像配置(
pytesseract.image_to_string=‘outputbase digits')
发布于 2013-11-05 18:55:43
这个问题在Tesseract FAQ上得到了回答
下面是如何让tesseract只识别数字的方法:
Tesseract 2-在调用Init函数或将其放入名为tessdata/configs/digits的文本文件之前:
tessedit_char_whitelist 0123456789然后你的命令行变成:
tesseract image.tif outputbase nobatch digitsTesseract 3-已经创建了数字配置文件,所以只需运行如下的tesseract命令:
tesseract imagename outputbase digitshttps://stackoverflow.com/questions/11304286
复制相似问题