首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >python-tesseract OCR:只获取数字

python-tesseract OCR:只获取数字
EN

Stack Overflow用户
提问于 2012-03-20 20:01:45
回答 1查看 6.7K关注 0票数 13

我正在使用tesseract OCRwith。在tesseract常见问题中,关于数字,我们有:

使用 TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789"); 在调用Init函数或将其放入名为tessdata/ this /位的文本文件之前: tessedit_char_whitelist 0123456789 然后命令行变成: tesseract image.tif outputbase nobatch digits 警告:在旧的配置变量和新的配置变量合并之前,您也必须具有no批处理参数。

在python中,存在SetVariable方法。我试过了,但是OCR的结果是一样的:

代码语言:javascript
复制
api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

是否有人已经做到了这一点,或者我是否应该认为它是中的一个bug?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-03-21 13:22:09

好的,开始工作了。根据这个(非官方?)文档 of tesseract-ocr,SetVariable()必须在Init()之后调用,尽管官方的FAQ中有相反的说法。在Init()之后调用它就像预期的那样工作。

票数 15
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9794029

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档