我需要从这本杂志中提取“文章”,其中既有文字和图像。图像内容必须单独放置,文本提取(尽可能)并单独放置。
我该怎么做呢?有没有商业服务/ api已经做到了这一点?程序/服务的输入将只是文件。
输入的Eg:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(实际的文件应该是普通的pdf文件,而不是加密的文件)
发布于 2011-09-02 01:41:34
Docotic.Pdf library可以从PDF文件中提取图像和文本。
以下是您的任务的几个示例:
提取的图像可以保存为JPEG和TIFF。您可以从每页或整个文档中提取文本。你可以用它们的坐标来提取文本块。
免责声明:我为Bit Miracle工作,该库的供应商。
发布于 2011-05-04 15:23:00
试试这个:
http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7
相同的组件也具有图像提取功能。
你可以试一试!
发布于 2011-05-05 05:09:20
如果你能提供一个商业选择,Amyuni PDF Creator将允许你枚举pdf文件中的所有组件(文本,图像等),你将能够提取它们作为独立的对象,你可以用它们创建新的PDF文件。
https://stackoverflow.com/questions/5879174
复制相似问题