pyPdf是一个用于拆分、合并PDF文件的很好的库。我用它将pdf文档分割成1页的文档。pyPdf是纯python,在保存提取的页面时,它在PdfFileWriter对象的_sweepIndirectReferences()方法上花费了相当多的时间。我需要有更好表现的东西。我尝试过使用多线程,但是由于大部分时间都花在python代码上,所以由于GIL (实际上运行得更慢),速度没有增加。
是否有任何用c语言编写的库提供了相同的功能?或者,有没有人对如何提高性能有一个好的想法(除了为我想要分割的每个pdf文件生成一个新的过程之外)
提前谢谢你。
跟进。指向几个命令行解决方案的链接,有时比pyPDF更快:
我修改了pyPDF PdfWriter类,以跟踪在_sweepIndirectReferences()方法上花费了多少时间。如果时间太长(现在我使用了3秒的魔法值),那么我将通过从python调用它来恢复到使用鬼怪脚本。
谢谢你的回答。(codelogic的xpdf引用让我寻找另一种方法)
发布于 2009-02-03 18:53:10
mbtPdfAsm是一个用于PDF处理的快速、开放源代码命令行工具。
Xpdf也值得一提,因为它是GPL的,并且是用C++编写的。该源代码具有良好的模块化,允许编写命令行工具。
发布于 2009-02-04 02:47:53
一定要是蟒蛇吗?我的纯Perl库卡姆::PDF在附加和删除PDF文档页方面非常快。在可能的情况下,它会把清扫工作保存到最后。
发布于 2009-02-03 17:55:37
pdfLaTex可以进行大量的PDF管理,而且速度非常快。
我用它做了一些相当复杂的词组。TeX语言与编程非常陌生,但是编写一个生成所需的LaTex布局并对其进行处理的python脚本很容易。
https://stackoverflow.com/questions/508144
复制相似问题