我正在使用tesseract OCRwith。在tesseract常见问题中,关于数字,我们有:
使用
TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");在调用Init函数或将其放入名为tessdata/ this /位的文本文件之前:tessedit_char_whitelist 0123456789然后命令行变成:tesseract image.tif outputbase nobatch digits警告:在旧的配置变量和新的配置变量合并之前,您也必须具有no批处理参数。
在python中,存在SetVariable方法。我试过了,但是OCR的结果是一样的:
api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)是否有人已经做到了这一点,或者我是否应该认为它是中的一个bug?
发布于 2012-03-21 13:22:09
好的,开始工作了。根据这个(非官方?)文档 of tesseract-ocr,SetVariable()必须在Init()之后调用,尽管官方的FAQ中有相反的说法。在Init()之后调用它就像预期的那样工作。
https://stackoverflow.com/questions/9794029
复制相似问题