我有几个具有以下属性的PDF:
每个PDF包含可变数量的“文档”,具有不同的页数。
“文档”中的每一页都有诸如“第3页(共26页)”之类的文本。
我希望能够自动识别PDF中每个“文档”的第一页和最后一页(注意:这与PDF的第一页和最后一页不同,因为每个PDF可能包含几个“文档”),并将这些文档提取到新的PDF中,以便以后打印和存档。
我不确定我能带来什么工具来解决这个问题,也不确定有什么库可以解决这个问题。
有什么建议吗?最好是免费的,可以用来创建一个可以在Windows上运行的工具。
发布于 2009-04-08 16:47:24
Java有一个很好的免费pdf库。查看iText。
来自iText的网站:
您可以使用iText执行以下操作:
从XML文件或数据库向browser
的许多交互功能
<代码>H118等...<代码>H219<代码>F220
因为它是Java,所以在Windows上运行应该不会有任何问题,或者在其他任何地方都不会有问题。
发布于 2009-04-08 15:53:03
您可以尝试使用pdftk解压缩PDF,解析数据,拆分数据,然后重新压缩。
发布于 2009-04-08 16:40:03
我设法想出了一个可以工作的可怕的unix黑客:
<代码>F29
应该可以在我的unix平台上工作,但不确定是否可以将所有这些工具带到windows环境中。
一种可能是使用电子邮件网关来接收pdf并返回经过处理的pdf,这使得它更加丑陋。
有谁有原生win32解决方案吗?
https://stackoverflow.com/questions/730613
复制相似问题