首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >“`pdfimages`”与“`pdftoppm`”有何不同?

“`pdfimages`”与“`pdftoppm`”有何不同?
EN

Unix & Linux用户
提问于 2022-10-22 19:20:05
回答 1查看 387关注 0票数 3

由于这个程序需要输入图像--它不能输入pdf本身--我使用了像pdftoppm MY_PDF NAME_OF_IMAGE -png这样的命令来处理低质量的pdf,因此,为了处理带有扫描Tailor的pdf (为了移除拍摄pdf页的背景,或者分割pdf页面),我使用了一个命令来处理一个低质量的pdf,结果的图像比原始的pdf更差。

但是使用来自pdfimagespoppler-utils工具,其结果和原来的一样好。

如果使用了与-png不同的变量(或者没有使用变量,输出为ppm),则这仍然是正确的。

我认为从现在开始,pdfimages是一个更好的解决方案,但后来我注意到,对于许多其他pdf文件来说,这个命令根本不是很好,因为它给出了一些图像或文本片段,pdftoppm给出了预期的正常文本。

如果从pdf中提取出错误的图像,并在海豚中查看pdfimages

正确的图像,如果提取从相同的pdf与pdftoppm观看海豚:

为什么会有这些差异?

EN

回答 1

Unix & Linux用户

回答已采纳

发布于 2022-10-22 20:13:39

这种差异源于工具的用途。一旦您意识到PDF是一种灵活的文件格式,就会变得很明显。它可以包含文本、矢量图形和光栅图像(此列表并非详尽无遗)。您可能会认为它是“带有布局信息的zip”(总体简化)。

  • pdftoppm将“渲染”或“光栅化”整个PDF。由于嵌入光栅图像的像素很少与输出“画布”的像素对齐,所以所有的文本和图形都将成为一个栅格化的输出image.,插值的发生和质量的下降。这可以通过显著提高输出分辨率(选项-r)来抵消。当然,这意味着文件的大小也会增加。
  • pdfimages将从PDF文件中提取光栅图像。文本或矢量图形是disregarded.,因为光栅图像是提取的,原来的质量被保留,但有关布局的信息丢失。

如果您的输入PDF只包含一个光栅图像,而没有其他任何内容,则输出可能类似。

在你的例子中,复印机的扫描功能试图识别文本块来存储高质量的文本。文档的其余部分(例如,白色背景)以低质量存储,以节省存储空间。正如你所发现的,这可能对一个人有好处,也可能不起作用。

票数 10
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/722061

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档