常规PDF文件由矢量元素(如文本和矢量图形)和其他嵌入数据(如图像文件)组成。使用诸如pdfimages (如描述的在这个问答中)这样的实用程序来提取后者非常容易。
另一方面,扫描的PDF文档是扫描页面的汇编。每个页面都是位图图像,可能被OCR生成的可搜索文本层覆盖。因此,在扫描的PDF文档上运行pdfimages只会提取所扫描的页面。
我正在寻找的是一个应用程序或命令行实用程序,它可以区分扫描PDF文档中的图像和文本,并提取前者。
像这样的东西存在吗?
发布于 2014-09-11 08:27:27
使用PDF图像--PDF图像提取工具
用法:pdfimages [options] <PDF-file> <image-root>
示例:以JPEG格式保存图像
out映像-j in.pdf /tmp/out
PS:有人,请把这个标记为副本:从PDF中提取嵌入图像 [creadits转到pl1nk:https://askubuntu.com/users/48864/pl1nk ]
https://askubuntu.com/questions/522694
复制相似问题