文章/答案/技术大牛

发布

社区首页 >问答首页 >在扫描的PDF文档中将图像与文本分离

问在扫描的PDF文档中将图像与文本分离
EN

Ask Ubuntu用户

提问于 2014-09-11 08:14:11

回答 1查看 1.1K关注 0票数 3

常规PDF文件由矢量元素(如文本和矢量图形)和其他嵌入数据(如图像文件)组成。使用诸如pdfimages (如描述的在这个问答中)这样的实用程序来提取后者非常容易。

另一方面，扫描的PDF文档是扫描页面的汇编。每个页面都是位图图像，可能被OCR生成的可搜索文本层覆盖。因此，在扫描的PDF文档上运行pdfimages只会提取所扫描的页面。

我正在寻找的是一个应用程序或命令行实用程序，它可以区分扫描PDF文档中的图像和文本，并提取前者。

像这样的东西存在吗？

scanning

software-recommendation

pdf

回答 1

Ask Ubuntu用户

发布于 2014-09-11 08:27:27

使用PDF图像--PDF图像提取工具

用法：pdfimages [options] <PDF-file> <image-root>

示例:以JPEG格式保存图像

out映像-j in.pdf /tmp/out

PS:有人，请把这个标记为副本：从PDF中提取嵌入图像 [creadits转到pl1nk：https://askubuntu.com/users/48864/pl1nk ]

票数 2

页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://askubuntu.com/questions/522694

复制

相似问题

问在扫描的PDF文档中将图像与文本分离
EN

回答 1

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在扫描的PDF文档中将图像与文本分离EN

回答 1

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在扫描的PDF文档中将图像与文本分离
EN