使用Kofax Capture 10 (SP1,FP2),我在文档的某些字段上设置了识别区。这些字段始终将I识别为1。我尝试了所有我能想到的不会清除字段中所有字符的设置组合,但都无济于事。我已经尝试了高级OCR和高性能OCR,不同的字符过滤器。各种各样的东西。
我可以尝试哪些选项来自动识别此字符?我应该告诉制作表单的人(它们是由计算机生成的)他们需要尝试使用不同的字体吗?让他们相信现在是时候考虑使用验证了吗?
我当前的字段设置:
Kofax高级OCR,除了在高级对话框中最大限度地提高精确度外,没有自定义设置。到目前为止,这个方法和我尝试过的其他方法一样有效。
使用的字体是8- 12磅,顺便说一句。
发布于 2013-01-23 04:31:53
如果涉及光学字符识别,则无论是电子文档还是纸质文档,验证都是必须的。对于纸质文档来说,这是一个更大的需求。
至少使用11pt Arial并将文档渲染为300 dpi图像。这会给你99.9%的准确率(也就是每1000个错失中有1个字符)。如果数据中的数字和字母混合在一个单词中,尤其是1-I,0-O,6-G,准确率可能会下降。
如果您知道没有这样的混合数据,并且OCR仍然返回混合的数字和字母,则可以使用识别脚本。您可以使用PostRecognition脚本事件来捕获来自OCR引擎的识别结果,并使用SBL或VB.NET脚本对其进行修改。但这在很大程度上取决于您处理的文档和数据。
图像清理不会对电子文档有任何好处。
我会说你最好的方法是使用验证。至少,这将把责任推给验证操作员。
https://stackoverflow.com/questions/13845179
复制相似问题