我的软件需要读取一个固定长度的手写数字。
虽然我可以使用像特塞尔这样的通用库,但我相信还有一些更聪明的东西。Tesseract可能会将1或7中的某些曲解为I或l,而只期望数字的软件则不会。
知道只有数字(美式-英语的书写方式),该算法可以专注于10个潜在的匹配,而不是数以百计的符号。
有过OCRing手写体数字字段的经验吗?
你用什么开源库/软件获得了最好的结果?
发布于 2010-04-01 07:12:27
来自常见问题 of Tesseract:
如何只识别数字? 2.03及以上: 使用 TessBaseAPI::SetVariable("tessedit_char_whitelist","0123456789"); 在调用Init函数或将其放入名为
tessdata/configs/digits的文本文件之前: tessedit_char_whitelist 0123456789 然后命令行变成: tesseract image.tif输出基数字 警告:在旧配置变量和新配置变量合并之前,您也必须拥有nobatch参数。
但我认为,由于它是专为印刷--而不是手写--设计的,即使是数字,它的准确性也可能会受到影响。
https://stackoverflow.com/questions/2558678
复制相似问题