文章/答案/技术大牛

发布

社区首页 >问答首页 >给定一个PDF，如何从命令行提取图像*及其在页面上的位置？

问给定一个PDF，如何从命令行提取图像*及其在页面上的位置？
EN

Stack Overflow用户

提问于 2011-01-03 00:17:15

回答 3查看 8.5K关注 0票数 16

我有一个PDF，其中包括文字和图像。我想使用linux命令行从PDF中提取图像。我可以使用pdfimages提取图像，但我也希望在每个页面上找到该图像所在的位置。pdfimages可以告诉我每个图像的页面(从文件名)，但是这就是它给我的全部。还有其他牙线工具可以做到这一点吗？

command-line

linux

pdf

回答 3

Stack Overflow用户

发布于 2011-01-08 10:01:02

我认为PDF必须包含放置它们的信息，所以这应该是可能的。另一方面，解决办法可以是：

使用pdftoppm

Extract将每个pdf页转换为一幅图像，用pdfimages

Convert将每一页的图像转换为单一的8位灰度通道(用于更快的分析)，并使用matchTemplate

进行cvCvtColor

Object检测。

步骤1可能类似于本步骤2：

for i in {0..99} ; do pdfimages -f $((i)) -l $((i+1)) file.pdf page$((i)); done

步骤3*一个简单的例子

在第4步中，您不应该有问题的培训，因为形象将是一个完全匹配。matchTemplate( imageToSearch, pdfPageImg, outputMap, 'CV_TM_SQDIFF')

(* -删除链接，因为它现在似乎指向一个赎金网站)

票数 17

Stack Overflow用户

发布于 2015-06-08 21:26:46

有一个-xml开关用于pdftohtml命令，它将给出图像位置、维度和源信息。

pdftohtml -xml file.pdf

票数 10

Stack Overflow用户

发布于 2011-01-03 09:51:40

在PDF中不能保证如果一个图像被重用，它将不会是一个单独的图像。除了页面位置和页面上的实际大小之外，PDF文件中很少有图像元数据。我在http://www.jpedal.org/PDFblog/2010/09/understanding-the-pdf-file-format-images/写了一篇文章，解释了图像是如何存储在PDF中的

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4581255

复制

相似问题

问给定一个PDF，如何从命令行提取图像*及其在页面上的位置？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问给定一个PDF，如何从命令行提取图像*及其在页面上的位置？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问给定一个PDF，如何从命令行提取图像*及其在页面上的位置？
EN