我有如下图片:

当我用-l eng+rus (或-l rus+eng)调用tesseract时,我会得到这样的结果:
Повар спрашивает повара - 200 ВОВ!正如你所看到的,文本的俄文部分是可以识别的,但是RUB部分是错误的,因为据我所知,Tesseract认为这是俄文文本。尽管BOB word的置信度只有34,但看起来Tesseract并不打算使用英语。除了将文本分成两组并分别运行Tesseract之外,还有什么方法可以修复它吗?(我知道第二部分总是英语,但第一部分可以是英语或俄语)。
附注:我尝试使用西里尔字母训练数据(Cyrillic.traineddata),但结果基本相同(Повар спрашивает повара - 200 ВЏВ!)
发布于 2019-06-03 02:59:15
虽然您正在使用正确的语法进行多语言识别,但结果清楚地表明'BOB‘被错误分类。你先做一件事,只在英语语言模式下运行这个文本,然后查看结果,它很可能会将BOB读作正确的文本。然后,在此检查之后,更改用于英语文本识别的默认模型。希望它也会做出同样的调整。如果不是,那么你将不得不忍受这些结果,因为tesseract不会提供100%的结果。
https://stackoverflow.com/questions/56227446
复制相似问题