文章/答案/技术大牛

发布

社区首页 >问答首页 >PDF文档操作

问PDF文档操作
EN

Stack Overflow用户

提问于 2009-04-08 15:47:59

回答 3查看 411关注 0票数 1

我有几个具有以下属性的PDF：

每个PDF包含可变数量的“文档”，具有不同的页数。

“文档”中的每一页都有诸如“第3页(共26页)”之类的文本。

我希望能够自动识别PDF中每个“文档”的第一页和最后一页(注意:这与PDF的第一页和最后一页不同，因为每个PDF可能包含几个“文档”)，并将这些文档提取到新的PDF中，以便以后打印和存档。

我不确定我能带来什么工具来解决这个问题，也不确定有什么库可以解决这个问题。

有什么建议吗？最好是免费的，可以用来创建一个可以在Windows上运行的工具。

pdf

pdf-manipulation

回答 3

Stack Overflow用户

发布于 2009-04-08 16:47:24

Java有一个很好的免费pdf库。查看iText。

来自iText的网站：

您可以使用iText执行以下操作：

从XML文件或数据库向browser

Generate提供

动态文档

使用

的许多交互功能

添加书签、页码、水印、PDF串接和操作pages

Automate填充表单
向
文件添加数字签名

<代码>H118等...<代码>H219<代码>F220

因为它是Java，所以在Windows上运行应该不会有任何问题，或者在其他任何地方都不会有问题。

票数 1

Stack Overflow用户

发布于 2009-04-08 15:53:03

您可以尝试使用pdftk解压缩PDF，解析数据，拆分数据，然后重新压缩。

票数 0

Stack Overflow用户

发布于 2009-04-08 16:40:03

我设法想出了一个可以工作的可怕的unix黑客：

使用pdftk解压并分解成单独的页面
使用pdftotext将每个页面转换为文本
编写一个脚本来识别txt中的适当字符串并将相应的pdf复制到子目录中进行
找到一些要重新组合的工具进行研究，也许pdftk可以做

<代码>F29

应该可以在我的unix平台上工作，但不确定是否可以将所有这些工具带到windows环境中。

一种可能是使用电子邮件网关来接收pdf并返回经过处理的pdf，这使得它更加丑陋。

有谁有原生win32解决方案吗？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/730613

复制

相似问题

问PDF文档操作
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF文档操作EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF文档操作
EN