Tesseract似乎在识别基本字母数字代码方面存在问题。我试着升级图像,更改为单空间字体,关闭字典,但OCR质量没有任何改善。
以下图像可识别为:
i3DOIIH_My ActivitiesJ
MmRSes_My Accounm DBYCAe_My Submissions1
Hrti6_My更新

如您所见,已识别的字符完全关闭。
发布于 2017-10-01 16:50:53
您原来的图像大小是1508 x 1092 pixels,4行加上垂直间距,看起来太大了。
在将图像还原为503 x 364 pixels后,将字符的76 pixels高度约为。

Tesseract在文本上给出100%的OCR结果。

字体大小和背景色确实会影响OCR结果。最好的结果将从黑色白纸文本中得到。否则,可能需要图像预处理。
希望能帮上忙。
发布于 2017-09-19 06:31:50
为这些类型的字符训练tesseract,包括特殊的characters.Refer、this Tesseract训练
https://stackoverflow.com/questions/46009161
复制相似问题