首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何解决中的字母混淆问题?

如何解决中的字母混淆问题?
EN

Stack Overflow用户
提问于 2020-06-10 15:58:37
回答 1查看 1.3K关注 0票数 0

我试图提取带有OCR和regex的增值税发票号,但很多时候字母B与数字8混淆了。例如,增值税号码是B28125185,OCR返回828125185。当然,regex没有检测到增值税的数量。我读过一些关于Levenshtein距离的文章,但我不知道如何实现它。有办法解决这个问题吗?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2020-06-11 10:50:24

如果您正在使用的图像有一个特定的字体,您可以考虑培训模型,以满足您的需要。下面是一个描述这个过程的视频:https://www.youtube.com/watch?v=TpD76k2HYms

或者,你也可以尝试关于图片的培训--输入增值税数字的图像+他们的文本,来教他们看起来怎样。

以下是培训文档的链接:

https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62307903

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档