我的一个正在实习的朋友2小时前问我是否可以帮助他避免手动做462 pdf文件到.xls使用免费的在线软件。
我想到了一个使用unoconv的外壳脚本,但我不知道如何正确使用它,我不确定unoconv是否能解决这个问题,因为它主要将文件转换为pdf,而不是相反的东西。
发布于 2012-12-13 09:18:58
从PDF到任何其他结构化格式的转换并不总是可能的,通常不建议这样做。
话虽如此,这看起来确实像是一次性的工作,而且有相当多的人(462)。
如果你能可靠地从它们中的大多数中提取文本,并且结构合理,那么它是值得追求的。这是一个试图在PDF样本中获得常规文本输出的问题,您可以可靠地将其解析为表结构。
有很多工具可以直接或基于OCR进行文本提取,谷歌就是一个例子。
我喜欢的一个是ghostscript套件中的pstotext;-bboxes选项允许我获得每个单词的坐标,并让我重新组装结构。尽管它的名字叫它,但它确实可以在输入PDF上工作。缺点是它可能有点古怪,可以在一些PDF上工作,但不能在其他PDF上工作。
如果您做到了这一点,那么您很可能需要编写一个shell脚本或程序来将其转换为CSV。您可以通过电子表格直接打开它,也可以寻找工具将其转换为XLS。
如果他还没有,让实习生询问是否有任何可能的方法来获得用于创建PDF的原始数据,这将节省大量的时间和精力,并导致更准确的结果。
Perl pstotext的一个替代方法是renderpdf.pl命令,它包含在Perl CAM::PDF模块中。更健壮,但只报告文本(x,y)位置,而不是边界框。
https://stackoverflow.com/questions/13843905
复制相似问题