首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对于一次性解析.pdf文件,哪个模块是有效的?CAM::PDF或PDF::API2

对于一次性解析.pdf文件,哪个模块是有效的?CAM::PDF或PDF::API2
EN

Stack Overflow用户
提问于 2011-05-18 14:38:39
回答 1查看 297关注 0票数 3

我想提取所有的关键字从一个巨大的pdf文件50MB?哪个模块适合解析大型pdf文件?我关心的是用于解析大型文件的内存&提取几乎所有的关键字!在这里,我想要SAX类型的解析,一次性解析&而不是类似于XML的DOM类型。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-05-27 06:08:55

要从PDF中读取文本,我们使用CAM::PDF,它工作得很好。它在一些大文件上的速度不是很快,但处理大文件的能力还不错。我们当然有一些~100Mb的,并且处理得很好。如果我没记错的话,我们在32位(Windows)的Perl上遇到了一些130Mb的问题,但当时我们的内存中还有很多其他的东西。我们确实看过PDF::API2,但它似乎更倾向于生成PDF,而不是从PDF中读取。我们没有把大文件放到PDF::API2中,所以我不能给出一个真正的基准数字。

我们发现使用CAM::PDF唯一明显的缺点是PDF1.6正在变得越来越普遍,而这在CAM::PDF中还根本不起作用。这对你来说可能不是问题,但它可能是需要考虑的。

在回答你的问题时,我非常肯定这两个模块都会以某种形式将整个源文件读入内存,但我不认为CAM::PDF会从中构建出更复杂的结构。因此,两者都不是真正的SAX,但是CAM::PDF似乎总体上更轻便,并且一次可以检索一个页面,因此可以减少提取非常大的文本的负载。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6040799

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档