首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有没有办法区分原生和扫描的pdf?

有没有办法区分原生和扫描的pdf?
EN

Stack Overflow用户
提问于 2019-06-22 11:48:32
回答 1查看 506关注 0票数 1

我使用ocr技术从包含图像的pdf中提取文本,但我只想在pdf还不能搜索的情况下使用ocr,否则我想使用pdfminer或类似的库。

有没有办法区分已经可以搜索的pdf和不能搜索的pdf?

EN

回答 1

Stack Overflow用户

发布于 2019-06-25 01:33:39

需要说明的是,“原生PDF”并不是真正来自PDF标准的术语,我见过一些人使用它来表示直接在PDF创作软件中创建的PDF,例如,您可以在其中包含文本和矢量图形等内容。

这将取决于您对正在接收的源PDF文档的了解程度。例如,如果您知道所有Native PDF总是由文本组成,那么您可以简单地从文档中提取文本,如果找到任何文本,就认为它是本地的,否则就认为它是扫描的。

如果您知道所有扫描的PDF总是由特定大小和特定压缩的图像组成,那么您可以检查文档中的这些属性,并对其进行相应的分类。

如果您对源输入一无所知,事情就会变得更加复杂。你也可以看看像元数据这样的东西,例如寻找识别一个与另一个的关键字。

最后,如果你对输入的类型有一些限制,那么分类就非常简单了。

一个很好的后续问题是,为什么需要以这种方式区分文档?如果我们对此有所了解,也许我们可以对这种方法发表评论。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56712412

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档