我使用tesseract 3.05的原因超出了我的控制范围。我正在使用源文件训练引擎来检测这种独特的字体。因为我有大量的样本,所以我只是简单地使用样本本身作为训练图像,而不是将它们分割成字体训练图像,因为这应该会给它带来更多的变化和与该字体具有的特定间距问题的训练。
我在生成方框文件时的问题,因为一些字母在角落接触(即,字形之间没有明显的中断),它会将它们检测为一个字形而不是两个单独的字形。例如,它有时会与NA斗争,因为A的前面衬线已经出血到N的衬线中。我应用的图像预处理使其得到了突飞猛进的改进,但仍然有一些我无法在图像上进行足够的纠正。
我的问题是:我可以简单地将框文件中的字形表示为NA吗?如果我不能,最简单的解决方案是什么?引入另一个字形框似乎不是一个好主意,但我能看到的唯一其他解决方案是手动编辑图像,使字形的分离更加明显。然而,这本身就是理论上的,因为这是字体在未来将会有的问题,我正在尝试OCR。
提前谢谢你,但文档并没有具体说明我是否可以将一个方框字形更正为两个字符,而不是一个字符(或者我只是没有找到相关的部分来解释这一点)。
发布于 2018-08-10 16:33:53
在搜索文档后,我设法找到了一个单独的段落,它没有出现在我的网站上:
“如果您没有成功地在训练图像上分隔字符,则其中一些字符可能已连接到一个方框中。在这种情况下,您可以使用更好的间距重新制作图像,然后重新开始,或者如果这两个字符对很常见,则将两个字符都放在行的开头,让边界框来表示它们。(从3.00开始,对“字符”的描述限制为24个字节。这将允许您使用6到24个unicodes来描述字符,具体取决于您的代码在unicode集中的位置。如果有人达到此限制,请提交问题描述您的情况。)
因此,您可以按我的要求做:在Tesseract的框文件中用两个或多个字符表示一个字形。
https://stackoverflow.com/questions/51754770
复制相似问题