问对于一次性解析.pdf文件，哪个模块是有效的？CAM::PDF或PDF::API2
EN

Stack Overflow用户

提问于 2011-05-18 14:38:39

回答 1查看 297关注 0票数 3

我想提取所有的关键字从一个巨大的pdf文件50MB？哪个模块适合解析大型pdf文件？我关心的是用于解析大型文件的内存&提取几乎所有的关键字！在这里，我想要SAX类型的解析，一次性解析&而不是类似于XML的DOM类型。

perl

adobe

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-05-27 06:08:55

要从PDF中读取文本，我们使用CAM::PDF，它工作得很好。它在一些大文件上的速度不是很快，但处理大文件的能力还不错。我们当然有一些~100Mb的，并且处理得很好。如果我没记错的话，我们在32位(Windows)的Perl上遇到了一些130Mb的问题，但当时我们的内存中还有很多其他的东西。我们确实看过PDF::API2，但它似乎更倾向于生成PDF，而不是从PDF中读取。我们没有把大文件放到PDF::API2中，所以我不能给出一个真正的基准数字。

我们发现使用CAM::PDF唯一明显的缺点是PDF1.6正在变得越来越普遍，而这在CAM::PDF中还根本不起作用。这对你来说可能不是问题，但它可能是需要考虑的。

在回答你的问题时，我非常肯定这两个模块都会以某种形式将整个源文件读入内存，但我不认为CAM::PDF会从中构建出更复杂的结构。因此，两者都不是真正的SAX，但是CAM::PDF似乎总体上更轻便，并且一次可以检索一个页面，因此可以减少提取非常大的文本的负载。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6040799

复制

相似问题

问对于一次性解析.pdf文件，哪个模块是有效的？CAM::PDF或PDF::API2
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于一次性解析.pdf文件，哪个模块是有效的？CAM::PDF或PDF::API2EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于一次性解析.pdf文件，哪个模块是有效的？CAM::PDF或PDF::API2
EN