首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PDF文档操作

PDF文档操作
EN

Stack Overflow用户
提问于 2009-04-08 15:47:59
回答 3查看 411关注 0票数 1

我有几个具有以下属性的PDF:

每个PDF包含可变数量的“文档”,具有不同的页数。

“文档”中的每一页都有诸如“第3页(共26页)”之类的文本。

我希望能够自动识别PDF中每个“文档”的第一页和最后一页(注意:这与PDF的第一页和最后一页不同,因为每个PDF可能包含几个“文档”),并将这些文档提取到新的PDF中,以便以后打印和存档。

我不确定我能带来什么工具来解决这个问题,也不确定有什么库可以解决这个问题。

有什么建议吗?最好是免费的,可以用来创建一个可以在Windows上运行的工具。

EN

回答 3

Stack Overflow用户

发布于 2009-04-08 16:47:24

Java有一个很好的免费pdf库。查看iText

来自iText的网站:

您可以使用iText执行以下操作:

从XML文件或数据库向browser

  • Generate提供

  • 动态文档

  • 使用

的许多交互功能

  • 添加书签、页码、水印、PDF串接和操作pages

  • Automate填充表单
  • 文件添加数字签名

<代码>H118等...<代码>H219<代码>F220

因为它是Java,所以在Windows上运行应该不会有任何问题,或者在其他任何地方都不会有问题。

票数 1
EN

Stack Overflow用户

发布于 2009-04-08 15:53:03

您可以尝试使用pdftk解压缩PDF,解析数据,拆分数据,然后重新压缩。

票数 0
EN

Stack Overflow用户

发布于 2009-04-08 16:40:03

我设法想出了一个可以工作的可怕的unix黑客:

  • 使用pdftk解压并分解成单独的页面
  • 使用pdftotext将每个页面转换为文本
  • 编写一个脚本来识别txt中的适当字符串并将相应的pdf复制到子目录中进行
  • 找到一些要重新组合的工具进行研究,也许pdftk可以做

<代码>F29

应该可以在我的unix平台上工作,但不确定是否可以将所有这些工具带到windows环境中。

一种可能是使用电子邮件网关来接收pdf并返回经过处理的pdf,这使得它更加丑陋。

有谁有原生win32解决方案吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/730613

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档