首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分析pdf文件的格式并提取文本和图像

分析pdf文件的格式并提取文本和图像
EN

Stack Overflow用户
提问于 2011-05-04 13:54:55
回答 4查看 4.1K关注 0票数 3

我需要从这本杂志中提取“文章”,其中既有文字和图像。图像内容必须单独放置,文本提取(尽可能)并单独放置。

我该怎么做呢?有没有商业服务/ api已经做到了这一点?程序/服务的输入将只是文件。

输入的Eg:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(实际的文件应该是普通的pdf文件,而不是加密的文件)

EN

回答 4

Stack Overflow用户

发布于 2011-09-02 01:41:34

Docotic.Pdf library可以从PDF文件中提取图像和文本。

以下是您的任务的几个示例:

提取的图像可以保存为JPEG和TIFF。您可以从每页或整个文档中提取文本。你可以用它们的坐标来提取文本块。

免责声明:我为Bit Miracle工作,该库的供应商。

票数 1
EN

Stack Overflow用户

发布于 2011-05-04 15:23:00

试试这个:

http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7

相同的组件也具有图像提取功能。

你可以试一试!

票数 0
EN

Stack Overflow用户

发布于 2011-05-05 05:09:20

如果你能提供一个商业选择,Amyuni PDF Creator将允许你枚举pdf文件中的所有组件(文本,图像等),你将能够提取它们作为独立的对象,你可以用它们创建新的PDF文件。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5879174

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档