首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >快速检查PDF文件上的OCR文本层

快速检查PDF文件上的OCR文本层
EN

Stack Overflow用户
提问于 2017-11-18 02:57:02
回答 1查看 818关注 0票数 1

有没有什么程序可以让我在PDF渲染的基础上叠加PDF的文本(OCR)层?

我想快速查看文本层是否有错误。

如果这可以用程序来完成,那会更方便,如果不能,一些cli命令或脚本也可以工作。

EN

回答 1

Stack Overflow用户

发布于 2017-11-18 07:51:34

叠加?这意味着您希望添加文本,而我相信您希望能够访问文本以进行检测,并可能对OCRed文本质量进行进一步分析。也许需要进一步澄清。

我们的开发人员花了一段时间研究算法,以检测PDF中文本的存在,然后评估其质量。有许多情况可以欺骗基本的算法- Bates数字或imprinter添加到图像中-仅PDF使其看起来像是高质量的文本,而它没有实际的文本。一些复印机生产“可搜索的PDF”,同时使用包含许多错误的非常低质量的OCR,但不一定是在通常是具有大字体的某种标题页的第一页上,因此算法遇到的文本的第一行看起来质量很高。或者第一个页面可能有文本,而其他页面没有,但算法可能会认为整个PDF都有文本。

在我们的商业大容量基于服务器的光学字符识别软件中(由服务局、SaaS平台、图书馆、积压转换等使用)我们现在有了先进的检测PDF与现有的文本层和“聪明的决定”,可以过滤出许多这样的假阳性情况。我们的OCR可以跳过对PDF中具有高质量文本的PDF进行重新OCR。如果你正在寻找一个质优价廉的OCR平台,这样的检测是它的一个功能,但如果没有我们的OCR它就不能单独使用。

我在www.wisetrend.com工作,我们为各种光学字符识别项目提供软件解决方案和咨询。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47357491

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档