文章/答案/技术大牛

发布

社区首页 >问答首页 >如何仅在pytesser中启用数字？

问如何仅在pytesser中启用数字？
EN

Stack Overflow用户

提问于 2012-02-27 14:30:00

回答 1查看 3.2K关注 0票数 2

我正在运行pytesser来进行OCR，这是python中的一个映像。当我第一次从页面上抓取图片时，它很好，但是在接下来的几页中，准确性会下降，直到87+1是$+$为止。

奇怪，嗯？我的猜测是，因为pytesser(python从tesseract到python的端口)构建是为了识别单词，并将您的OCR应用到下一个问题的上下文中。所以，没有办法禁用它，我只能将其设置为数字，对吗？但是pytesser没有太多的文档，所以我接着讨论了tesseract常见问题，但我并没有真正理解代码。

使用

TessBaseAPI::SetVariable("tessedit_char_whitelist"，"0123456789")；

在调用Init函数或将其放入名为tessdata/configs/digits的文本文件之前：

tessedit_char_whitelist 0123456789

然后命令行变成：

tesseract image.tif输出基数字

警告:在旧的配置变量和新的配置变量合并之前，您也必须具有no批处理参数。

我猜tat代表C或C++。有没有办法在蟒蛇身上做到这一点？或者更好的是，禁用OCR的上下文？

python

ocr

tesseract

回答 1

Stack Overflow用户

发布于 2013-05-18 00:52:24

在python中：

import tesseract
ocr = tesseract.TessBaseAPI();
ocr.Init(".","eng",tesseract.OEM_TESSERACT_ONLY)
ocr.SetVariable("tessedit_char_whitelist", "0123456789")

你也可能希望：

ocr.SetVariable("classify_enable_learning", "0")
ocr.SetVariable("classify_enable_adaptive_matcher", "0")

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9466694

复制

相似问题

问如何仅在pytesser中启用数字？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何仅在pytesser中启用数字？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何仅在pytesser中启用数字？
EN