我正在使用Tesseract OCR (通过pytesser)和PIL (Python Image Library)对应用程序进行自动化测试。
多亏了tesseract,我正在通过截屏和获取文本来检查显示的文本是否正常。
我在开始的时候遇到了一些问题,它似乎工作得更好,因为我增加了截图的尺寸,这要归功于PIL的双三次插值。
不幸的是,我仍然有一些错误,比如把“0”和“O”搞混了。我可以想象,我将来还会遇到其他类似的问题。
我想知道是否有一些技术来准备图像,以帮助OCR。任何想法都是受欢迎的。
提前感谢
发布于 2009-08-26 18:56:16
无耻的插件和免责声明:在.NET中使用的my company包
Tesseract是一个OK OCR引擎。它可能会遗漏很多东西,并且很容易被非文本所迷惑。你能做的最好的事情就是确保它只得到文本。下一个最好的办法是给它一些合理的二值化(自适应或动态阈值)或灰度,让它尝试进行二值化。
发布于 2013-11-05 20:17:17
characters
这里有几个真实世界的例子。
OCR是原始图像(裁剪后的功率表numbers)



发布于 2009-08-26 15:36:10
为了区分0和O,一个简单的解决方案是选择一种能够区分两者的字体(例如:0的中间有一个破折号或点)。这在你的应用程序中是可以接受的吗?
另一种解决方案是在文本的逐个字符分析之后应用基于字典的步骤-将识别的文本输入到某种形式的拼写检查器或验证器中,以区分困难的字符。
例如,一个后面跟着其他数字的圆形符号最有可能是零,而后面跟着字母的同一个符号最有可能是大写的o。这是一个微不足道的例子,但它表明了上下文对于制作更可靠的OCR系统是多么必要。
https://stackoverflow.com/questions/1335581
复制相似问题