有没有什么程序可以让我在PDF渲染的基础上叠加PDF的文本(OCR)层?
我想快速查看文本层是否有错误。
如果这可以用程序来完成,那会更方便,如果不能,一些cli命令或脚本也可以工作。
发布于 2017-11-18 07:51:34
叠加?这意味着您希望添加文本,而我相信您希望能够访问文本以进行检测,并可能对OCRed文本质量进行进一步分析。也许需要进一步澄清。
我们的开发人员花了一段时间研究算法,以检测PDF中文本的存在,然后评估其质量。有许多情况可以欺骗基本的算法- Bates数字或imprinter添加到图像中-仅PDF使其看起来像是高质量的文本,而它没有实际的文本。一些复印机生产“可搜索的PDF”,同时使用包含许多错误的非常低质量的OCR,但不一定是在通常是具有大字体的某种标题页的第一页上,因此算法遇到的文本的第一行看起来质量很高。或者第一个页面可能有文本,而其他页面没有,但算法可能会认为整个PDF都有文本。
在我们的商业大容量基于服务器的光学字符识别软件中(由服务局、SaaS平台、图书馆、积压转换等使用)我们现在有了先进的检测PDF与现有的文本层和“聪明的决定”,可以过滤出许多这样的假阳性情况。我们的OCR可以跳过对PDF中具有高质量文本的PDF进行重新OCR。如果你正在寻找一个质优价廉的OCR平台,这样的检测是它的一个功能,但如果没有我们的OCR它就不能单独使用。
我在www.wisetrend.com工作,我们为各种光学字符识别项目提供软件解决方案和咨询。
https://stackoverflow.com/questions/47357491
复制相似问题