我有大约10,000个pdf文件(conf论文),我需要从这些论文的某些部分(如实验部分)提取文本并保存到一个文件中。有没有人知道什么java工具或者python工具可以帮我做到这一点?
提前感谢
阿尤什
发布于 2013-04-23 01:27:47
对于java:看一下iText
对于python,我将使用PDFMiner
发布于 2013-04-23 01:25:41
你在发帖前有没有研究过你的问题?我刚刚在谷歌上找到了这个Apache项目:http://pdfbox.apache.org/
发布于 2013-11-15 10:28:43
因为这些都是学术论文,所以你也应该看看lapdftext。
PDFText是一个从基于
的研究文章中提取准确文本的系统(以及一个能够在需要时提高性能的界面)。该系统是开源的,并提供了一个简单的基线功能,用于使用开发人员可以定制的规则从主要研究文章中提取文本。
https://stackoverflow.com/questions/16152965
复制相似问题