首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使tesseract只能识别数字

使tesseract只能识别数字
EN

Stack Overflow用户
提问于 2012-07-03 12:02:59
回答 4查看 27.9K关注 0票数 9

我正在尝试改进我制作的OCR程序,以读取我正在使用的某个图像的布局。现在,我希望我的OCR程序只能识别数字0-9。

我试着遵循问题的解决方案:

Limit characters tesseract is looking for

但是我陷入了必须调用tesseract的部分:

代码语言:javascript
复制
tesseract input.tif output nobatch letters  

这是怎么回事?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-07-03 15:55:24

前段时间我在SO中发布了一些关于tesseract的内容:请参阅Tesseract OCR Library - Learning Font。值得注意的是,有一个link to tesseract training,它将告诉你如何限制你的字符集和描述你的歧义。

票数 6
EN

Stack Overflow用户

发布于 2016-11-14 09:27:47

我在使用python时也遇到了同样的问题,假设更多的读者可能会这样做。

从这里:https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits

这里:https://github.com/madmaze/pytesseract/blob/27fed535bf1eb665ec991313841b177336b50f61/src/pytesseract.py#L91

我成功地使用了:

图像配置(

pytesseract.image_to_string=‘outputbase digits')

票数 8
EN

Stack Overflow用户

发布于 2013-11-05 18:55:43

这个问题在Tesseract FAQ上得到了回答

下面是如何让tesseract只识别数字的方法:

Tesseract 2-在调用Init函数或将其放入名为tessdata/configs/digits的文本文件之前:

代码语言:javascript
复制
tessedit_char_whitelist 0123456789

然后你的命令行变成:

代码语言:javascript
复制
tesseract image.tif outputbase nobatch digits

Tesseract 3-已经创建了数字配置文件,所以只需运行如下的tesseract命令:

代码语言:javascript
复制
tesseract imagename outputbase digits
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11304286

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档