首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >包含两种语言的Tesseract 4

包含两种语言的Tesseract 4
EN

Stack Overflow用户
提问于 2019-05-21 04:03:08
回答 1查看 1.3K关注 0票数 4

我有如下图片:

当我用-l eng+rus (或-l rus+eng)调用tesseract时,我会得到这样的结果:

代码语言:javascript
复制
Повар спрашивает повара - 200 ВОВ!

正如你所看到的,文本的俄文部分是可以识别的,但是RUB部分是错误的,因为据我所知,Tesseract认为这是俄文文本。尽管BOB word的置信度只有34,但看起来Tesseract并不打算使用英语。除了将文本分成两组并分别运行Tesseract之外,还有什么方法可以修复它吗?(我知道第二部分总是英语,但第一部分可以是英语或俄语)。

附注:我尝试使用西里尔字母训练数据(Cyrillic.traineddata),但结果基本相同(Повар спрашивает повара - 200 ВЏВ!)

EN

回答 1

Stack Overflow用户

发布于 2019-06-03 02:59:15

虽然您正在使用正确的语法进行多语言识别,但结果清楚地表明'BOB‘被错误分类。你先做一件事,只在英语语言模式下运行这个文本,然后查看结果,它很可能会将BOB读作正确的文本。然后,在此检查之后,更改用于英语文本识别的默认模型。希望它也会做出同样的调整。如果不是,那么你将不得不忍受这些结果,因为tesseract不会提供100%的结果。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56227446

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档