问有没有办法区分原生和扫描的pdf？
EN

Stack Overflow用户

提问于 2019-06-22 11:48:32

回答 1查看 506关注 0票数 1

我使用ocr技术从包含图像的pdf中提取文本，但我只想在pdf还不能搜索的情况下使用ocr，否则我想使用pdfminer或类似的库。

有没有办法区分已经可以搜索的pdf和不能搜索的pdf？

发布于 2019-06-25 01:33:39

需要说明的是，“原生PDF”并不是真正来自PDF标准的术语，我见过一些人使用它来表示直接在PDF创作软件中创建的PDF，例如，您可以在其中包含文本和矢量图形等内容。

这将取决于您对正在接收的源PDF文档的了解程度。例如，如果您知道所有Native PDF总是由文本组成，那么您可以简单地从文档中提取文本，如果找到任何文本，就认为它是本地的，否则就认为它是扫描的。

如果您知道所有扫描的PDF总是由特定大小和特定压缩的图像组成，那么您可以检查文档中的这些属性，并对其进行相应的分类。

如果您对源输入一无所知，事情就会变得更加复杂。你也可以看看像元数据这样的东西，例如寻找识别一个与另一个的关键字。

最后，如果你对输入的类型有一些限制，那么分类就非常简单了。

一个很好的后续问题是，为什么需要以这种方式区分文档？如果我们对此有所了解，也许我们可以对这种方法发表评论。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56712412

复制

相似问题

问有没有办法区分原生和扫描的pdf？EN