首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否使用OCR引擎识别Micr字体?

是否使用OCR引擎识别Micr字体?
EN

Stack Overflow用户
提问于 2016-08-08 16:17:35
回答 2查看 1K关注 0票数 2

我正在使用Microsoft OCR Library来阅读文本。

Microsoft OCR库工作正常。但是,我想阅读链接http://www.ict4u.net/databases/database-images/micr.jpg中给出的以下字符列表。有没有一种方法可以训练OCR库来读取以下字符,或者是否有一种语言可以读取以下字符。

EN

回答 2

Stack Overflow用户

发布于 2016-08-10 01:00:52

Microsoft OCR crew here我们还不支持培训OCR以根据您的用例对其进行自定义。然而,我们确实会积极关注stackoverflow,看看开发人员需要什么,这样我们就可以继续改进OCR引擎。

票数 2
EN

Stack Overflow用户

发布于 2016-08-09 21:59:50

我使用Microsoft OCR已经有一段时间了。与Tesseract相比,它具有非常基本的功能。

例如,Microsoft OCR返回单词和行。但这些台词都是胡说八道。随机地将2到3个单词组合在一起作为“行”,但它们不是真正的行。而这些“行”是完全无序的。在这方面,它比Tesseract更糟糕。您必须获取每个单词的坐标,并自行对它们进行排序。

Microsoft不返回字符的矩形,并且绝对无法以任何方式配置或训练Microsoft OCR。您可以使用Windows Update为“基本输入”= OCR添加语言(请参阅http://www.thewindowsclub.com/install-uninstall-languages-windows-10),但您不能训练自己的语言数据。

MSDN表示,以下25种语言的支持精度各不相同:

  • 优秀:捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、匈牙利语、意大利语、挪威语、波兰语、葡萄牙语、罗马尼亚语、塞尔维亚语西里尔语、塞尔维亚语拉丁语、斯洛伐克语、西班牙语和瑞典语。
  • 非常好:简体中文、希腊语、日语、俄语和土耳其语。
  • good:中文繁体和韩语。

识别质量与Tesseract非常相似。它甚至有与Tesseract完全相同的问题。一些单个字符无法识别(像单个‘$’这样的独立符号),而且它与Tesseract一样存在与星号相同的巨大问题。它也会像Tesseract那样在错误的位置插入空格。所以我问自己,微软是否在幕后使用Tesseract?

然而,与Tesseract相比,Microsoft OCR有一个优势:图像预处理要好得多。无论是黄色背景上的红色文本还是黑色上的白色文本,都无关紧要。这是一个Tesseract的陷阱,它需要一个高质量的黑白图像作为输入。

对于两个OCR库都适用:如果您有识别问题,请尝试放大图像。甚至模糊图像也可能非常麻烦,因为这会去除图像中的噪声。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38824278

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档