我试图提高使用tesseract ocr和passportEye读取护照MRZ的准确性--我发现很少有包含"*.traineddata“的github存储库,它说要将它移到tesseract ocr tessdata文件夹中,我做到了。在readme中没有提到如何使用它,我相信它是一些琐碎的东西,但是我对这个tesseract非常陌生。
如何在python中使用passportEye,我在这里完全迷失了方向。搜了很多次。这是当前的代码。
import os
from passporteye import read_mrz
pr_path = os.getcwd()
file_path = os.path.join(pr_path,'my_app', 'data')
mrz = read_mrz(file_path + '/test1.jpg')
print(mrz)这是我想测试的更精确的.traineddata文件:最佳/best.培训数据
我不想使用笨重的openCV。请帮帮忙
发布于 2021-01-07 09:29:17
通过查看源代码,如果不更改PassportEye的代码库,我会说您做不到:
通常,您会将正在使用的via:-l参数传递给tesseract --在您的示例中:
-l mrz
但是PassportEye实现没有给您这个选项:
它们通过lang=None,您需要将该部分更改为lang=mrz
pytesseract.run_tesseract(input_file_name,
output_file_name_base,
'txt',
lang='mrz',
config=config)https://stackoverflow.com/questions/63351880
复制相似问题