首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将.pdf文件转换为excel (.xls)

将.pdf文件转换为excel (.xls)
EN

Stack Overflow用户
提问于 2012-12-13 00:12:46
回答 1查看 9.8K关注 0票数 1

我的一个正在实习的朋友2小时前问我是否可以帮助他避免手动做462 pdf文件到.xls使用免费的在线软件。

我想到了一个使用unoconv的外壳脚本,但我不知道如何正确使用它,我不确定unoconv是否能解决这个问题,因为它主要将文件转换为pdf,而不是相反的东西。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-12-13 09:18:58

从PDF到任何其他结构化格式的转换并不总是可能的,通常不建议这样做。

话虽如此,这看起来确实像是一次性的工作,而且有相当多的人(462)。

如果你能可靠地从它们中的大多数中提取文本,并且结构合理,那么它是值得追求的。这是一个试图在PDF样本中获得常规文本输出的问题,您可以可靠地将其解析为表结构。

有很多工具可以直接或基于OCR进行文本提取,谷歌就是一个例子。

我喜欢的一个是ghostscript套件中的pstotext;-bboxes选项允许我获得每个单词的坐标,并让我重新组装结构。尽管它的名字叫它,但它确实可以在输入PDF上工作。缺点是它可能有点古怪,可以在一些PDF上工作,但不能在其他PDF上工作。

如果您做到了这一点,那么您很可能需要编写一个shell脚本或程序来将其转换为CSV。您可以通过电子表格直接打开它,也可以寻找工具将其转换为XLS。

如果他还没有,让实习生询问是否有任何可能的方法来获得用于创建PDF的原始数据,这将节省大量的时间和精力,并导致更准确的结果。

Perl pstotext的一个替代方法是renderpdf.pl命令,它包含在Perl CAM::PDF模块中。更健壮,但只报告文本(x,y)位置,而不是边界框。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13843905

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档