我正在使用Microsoft OCR Library来阅读文本。
Microsoft OCR库工作正常。但是,我想阅读链接http://www.ict4u.net/databases/database-images/micr.jpg中给出的以下字符列表。有没有一种方法可以训练OCR库来读取以下字符,或者是否有一种语言可以读取以下字符。
发布于 2016-08-10 01:00:52
Microsoft OCR crew here我们还不支持培训OCR以根据您的用例对其进行自定义。然而,我们确实会积极关注stackoverflow,看看开发人员需要什么,这样我们就可以继续改进OCR引擎。
发布于 2016-08-09 21:59:50
我使用Microsoft OCR已经有一段时间了。与Tesseract相比,它具有非常基本的功能。
例如,Microsoft OCR返回单词和行。但这些台词都是胡说八道。随机地将2到3个单词组合在一起作为“行”,但它们不是真正的行。而这些“行”是完全无序的。在这方面,它比Tesseract更糟糕。您必须获取每个单词的坐标,并自行对它们进行排序。
Microsoft不返回字符的矩形,并且绝对无法以任何方式配置或训练Microsoft OCR。您可以使用Windows Update为“基本输入”= OCR添加语言(请参阅http://www.thewindowsclub.com/install-uninstall-languages-windows-10),但您不能训练自己的语言数据。
MSDN表示,以下25种语言的支持精度各不相同:
识别质量与Tesseract非常相似。它甚至有与Tesseract完全相同的问题。一些单个字符无法识别(像单个‘$’这样的独立符号),而且它与Tesseract一样存在与星号相同的巨大问题。它也会像Tesseract那样在错误的位置插入空格。所以我问自己,微软是否在幕后使用Tesseract?
然而,与Tesseract相比,Microsoft OCR有一个优势:图像预处理要好得多。无论是黄色背景上的红色文本还是黑色上的白色文本,都无关紧要。这是一个Tesseract的陷阱,它需要一个高质量的黑白图像作为输入。
对于两个OCR库都适用:如果您有识别问题,请尝试放大图像。甚至模糊图像也可能非常麻烦,因为这会去除图像中的噪声。
https://stackoverflow.com/questions/38824278
复制相似问题