我试图提取带有OCR和regex的增值税发票号,但很多时候字母B与数字8混淆了。例如,增值税号码是B28125185,OCR返回828125185。当然,regex没有检测到增值税的数量。我读过一些关于Levenshtein距离的文章,但我不知道如何实现它。有办法解决这个问题吗?
谢谢
发布于 2020-06-11 10:50:24
如果您正在使用的图像有一个特定的字体,您可以考虑培训模型,以满足您的需要。下面是一个描述这个过程的视频:https://www.youtube.com/watch?v=TpD76k2HYms
或者,你也可以尝试关于图片的培训--输入增值税数字的图像+他们的文本,来教他们看起来怎样。
以下是培训文档的链接:
https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining
https://stackoverflow.com/questions/62307903
复制相似问题