我使用ocr技术从包含图像的pdf中提取文本,但我只想在pdf还不能搜索的情况下使用ocr,否则我想使用pdfminer或类似的库。
有没有办法区分已经可以搜索的pdf和不能搜索的pdf?
发布于 2019-06-25 01:33:39
需要说明的是,“原生PDF”并不是真正来自PDF标准的术语,我见过一些人使用它来表示直接在PDF创作软件中创建的PDF,例如,您可以在其中包含文本和矢量图形等内容。
这将取决于您对正在接收的源PDF文档的了解程度。例如,如果您知道所有Native PDF总是由文本组成,那么您可以简单地从文档中提取文本,如果找到任何文本,就认为它是本地的,否则就认为它是扫描的。
如果您知道所有扫描的PDF总是由特定大小和特定压缩的图像组成,那么您可以检查文档中的这些属性,并对其进行相应的分类。
如果您对源输入一无所知,事情就会变得更加复杂。你也可以看看像元数据这样的东西,例如寻找识别一个与另一个的关键字。
最后,如果你对输入的类型有一些限制,那么分类就非常简单了。
一个很好的后续问题是,为什么需要以这种方式区分文档?如果我们对此有所了解,也许我们可以对这种方法发表评论。
https://stackoverflow.com/questions/56712412
复制相似问题