首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何仅在pytesser中启用数字?

如何仅在pytesser中启用数字?
EN

Stack Overflow用户
提问于 2012-02-27 14:30:00
回答 1查看 3.2K关注 0票数 2

我正在运行pytesser来进行OCR,这是python中的一个映像。当我第一次从页面上抓取图片时,它很好,但是在接下来的几页中,准确性会下降,直到87+1是$+$为止。

奇怪,嗯?我的猜测是,因为pytesser(python从tesseract到python的端口)构建是为了识别单词,并将您的OCR应用到下一个问题的上下文中。所以,没有办法禁用它,我只能将其设置为数字,对吗?但是pytesser没有太多的文档,所以我接着讨论了tesseract常见问题,但我并没有真正理解代码。

使用

TessBaseAPI::SetVariable("tessedit_char_whitelist","0123456789");

在调用Init函数或将其放入名为tessdata/configs/digits的文本文件之前:

tessedit_char_whitelist 0123456789

然后命令行变成:

tesseract image.tif输出基数字

警告:在旧的配置变量和新的配置变量合并之前,您也必须具有no批处理参数。

我猜tat代表C或C++。有没有办法在蟒蛇身上做到这一点?或者更好的是,禁用OCR的上下文?

EN

回答 1

Stack Overflow用户

发布于 2013-05-18 00:52:24

在python中:

代码语言:javascript
复制
import tesseract
ocr = tesseract.TessBaseAPI();
ocr.Init(".","eng",tesseract.OEM_TESSERACT_ONLY)
ocr.SetVariable("tessedit_char_whitelist", "0123456789")

你也可能希望:

代码语言:javascript
复制
ocr.SetVariable("classify_enable_learning", "0")
ocr.SetVariable("classify_enable_adaptive_matcher", "0")
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9466694

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档