首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用OCR识别上标字符

使用OCR识别上标字符
EN

Stack Overflow用户
提问于 2012-03-02 18:24:26
回答 1查看 2K关注 0票数 4

我已经开始了一个简单的项目,在这个项目中,它必须获得一个包含带有上标的文本的图像,然后通过使用OCR (目前我使用的是tesseract),它必须识别上标字符+正常字符。

例如,我们有一个化学方程式,如Cl²,但当我使用测试血清来识别它时,它给出了Cl2 (全部在一行中)。

那么,这个问题的解决方案是什么呢?是否有其他OCR API能够读取上标?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-03-16 01:20:24

这是一个非常好的问题,它涉及到任何OCR系统的更高级功能。

首先,确保您没有忽略该功能,即使它可能存在于OCR系统中。确保不是以普通的TXT格式查看测试结果,而是使用某种支持富文本的查看器。TXT查看器(如Windows上的记事本)通常不支持上标/下标字符,因此即使OCR为您提供正确的字符,查看器也可以将其转换为显示字符。如果你以编程方式访问文本结果,这就不是什么问题了,因为当你直接访问它时,你应该得到一个正确的下标字符值。请注意,查看器必须支持它,您才能真正看到它。如果您排除了这种可能的后处理转换,并确保没有从OCR返回下标,则它可能不支持它。

就像在此文本框中一样,在您的原始问题中,您试图给我们提供一个上标字符示例,但此文本框不接受它,即使您可以从其他地方复制/粘贴它。

许多OCR会将下标视为任何其他普通字符,如果他们能看到它的话。您使用的OCR需要具有实际生成上标/下标的技术能力,其中许多都是这样做的,但它们往往是商业OCR系统,这并不令人惊讶。

在回复这封信之前,我做了一个小测试。我为我的测试生成了一个带有一些上标/下标示例的图像(当然,EMC2是脑海中浮现的第一个示例:)。

你可以在这里找到我的测试图片:www.ocr-it.com/documents/superscript_subscript_test_page.tif

并使用所有默认设置通过OCR-IT OCR Cloud 2.0 API处理此图像,但导出为富文本格式,如MS Word .DOC。

你可以在这里找到我的测试图片:www.ocr-it.com/documents/superscript_subscript_test_page_result.doc

另请注意:当您对提取上标/下标字符感兴趣时,请分别关注您的图像质量,而不是典型的文本。这些字符很小,你需要足够的细节和分辨率才能达到下降的OCR质量。即使扫描到300dpi的图像,由于像素太少,有时也会出现字符太小的问题。如果你正在考虑移动和数码相机,这就变得更加重要了。

披露:我的专长是为不同规模的公司实现内部OCR解决方案。我的公司是WiseTREND。如果我能提供任何进一步的帮助,请直接联系我。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9531650

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档