首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在扫描的PDF文档中将图像与文本分离

在扫描的PDF文档中将图像与文本分离
EN

Ask Ubuntu用户
提问于 2014-09-11 08:14:11
回答 1查看 1.1K关注 0票数 3

常规PDF文件由矢量元素(如文本和矢量图形)和其他嵌入数据(如图像文件)组成。使用诸如pdfimages (如描述的在这个问答中)这样的实用程序来提取后者非常容易。

另一方面,扫描的PDF文档是扫描页面的汇编。每个页面都是位图图像,可能被OCR生成的可搜索文本层覆盖。因此,在扫描的PDF文档上运行pdfimages只会提取所扫描的页面。

我正在寻找的是一个应用程序或命令行实用程序,它可以区分扫描PDF文档中的图像和文本,并提取前者。

像这样的东西存在吗?

EN

回答 1

Ask Ubuntu用户

发布于 2014-09-11 08:27:27

使用PDF图像--PDF图像提取工具

用法:pdfimages [options] <PDF-file> <image-root>

示例:以JPEG格式保存图像

out映像-j in.pdf /tmp/out

PS:有人,请把这个标记为副本:从PDF中提取嵌入图像 [creadits转到pl1nk:https://askubuntu.com/users/48864/pl1nk ]

票数 2
EN
页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://askubuntu.com/questions/522694

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档