首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自动提取文本从pdf为许多文件

自动提取文本从pdf为许多文件
EN

Stack Overflow用户
提问于 2013-04-23 01:20:52
回答 3查看 887关注 0票数 0

我有大约10,000个pdf文件(conf论文),我需要从这些论文的某些部分(如实验部分)提取文本并保存到一个文件中。有没有人知道什么java工具或者python工具可以帮我做到这一点?

提前感谢

阿尤什

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2013-04-23 01:27:47

对于java:看一下iText

对于python,我将使用PDFMiner

票数 1
EN

Stack Overflow用户

发布于 2013-04-23 01:25:41

你在发帖前有没有研究过你的问题?我刚刚在谷歌上找到了这个Apache项目:http://pdfbox.apache.org/

票数 2
EN

Stack Overflow用户

发布于 2013-11-15 10:28:43

因为这些都是学术论文,所以你也应该看看lapdftext

PDFText是一个从基于

的研究文章中提取准确文本的系统(以及一个能够在需要时提高性能的界面)。该系统是开源的,并提供了一个简单的基线功能,用于使用开发人员可以定制的规则从主要研究文章中提取文本。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16152965

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档