我有一个PDF,其中包括文字和图像。我想使用linux命令行从PDF中提取图像。我可以使用pdfimages提取图像,但我也希望在每个页面上找到该图像所在的位置。pdfimages可以告诉我每个图像的页面(从文件名),但是这就是它给我的全部。还有其他牙线工具可以做到这一点吗?
发布于 2011-01-08 10:01:02
我认为PDF必须包含放置它们的信息,所以这应该是可能的。另一方面,解决办法可以是:
使用pdftoppm
pdfimages
matchTemplate
进行cvCvtColor
步骤1可能类似于本步骤2:
for i in {0..99} ; do pdfimages -f $((i)) -l $((i+1)) file.pdf page$((i)); done步骤3*一个简单的例子
在第4步中,您不应该有问题的培训,因为形象将是一个完全匹配。matchTemplate( imageToSearch, pdfPageImg, outputMap, 'CV_TM_SQDIFF')
(* -删除链接,因为它现在似乎指向一个赎金网站)
发布于 2015-06-08 21:26:46
有一个-xml开关用于pdftohtml命令,它将给出图像位置、维度和源信息。
pdftohtml -xml file.pdf发布于 2011-01-03 09:51:40
在PDF中不能保证如果一个图像被重用,它将不会是一个单独的图像。除了页面位置和页面上的实际大小之外,PDF文件中很少有图像元数据。我在http://www.jpedal.org/PDFblog/2010/09/understanding-the-pdf-file-format-images/写了一篇文章,解释了图像是如何存储在PDF中的
https://stackoverflow.com/questions/4581255
复制相似问题