我已经看到,为了限制扫描错误,您可以为字符定义一个白名单。
但是我在ocr.Init(@"c:\temp", "fra", false);中找不到bool numericMode的信息
假设您只想扫描数字:将白名单设置为"0123456789“可以正确地获得最佳的识别结果,但是初始化方法的numericMode参数做什么呢?我一直认为它是错误的,即使白名单是"0123456789“。
还有什么是最好的位图参数(像素格式)的图像馈送到tessnet。
发布于 2011-09-29 15:54:13
Tesseract FAQ中列出了扫描编号的问题。如果您使用的是版本3,您应该能够只发出以下命令:
tesseract image.tif outputbase nobatch digits发布于 2012-07-31 07:47:30
根据经验,数字模式将结果限制为数字和支持字符。我已经看到"0123456789,.+-/*%<>$(){}“以及更多。允许使用货币符号。
从我的经验来看,我还没有看到减少位深度格式比全彩色图像有什么大的好处。然而,我没有优化速度,只优化了准确性。如果你的字体很小(小写的>= 8像素高),那么放大图像确实可以提高精确度。
https://stackoverflow.com/questions/7416087
复制相似问题