首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PDF (google应用程序引擎)中提取文本

从PDF (google应用程序引擎)中提取文本
EN

Stack Overflow用户
提问于 2010-03-28 01:10:36
回答 5查看 3.6K关注 0票数 2

有没有免费的Java库可以从PDF中提取文本,与Google应用程序引擎兼容?

我读过关于PDFJet的文章,但是它不能读PDF,是吗?

有没有其他方法可以从PDF中提取文本?我试过http://www.pdfdownload.org/,不幸的是他们不能正确处理非英文字符。

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2010-03-28 06:15:24

iText现在有一个文本解析模块(我是解析器的作者之一)。有关如何使用它的示例,请参阅com.itextpdf.text.pdf.parser.PdfContentReaderTool类。

票数 3
EN

Stack Overflow用户

发布于 2010-04-16 21:48:28

PdfBox不能在GAE上运行。它使用了不允许的java类。

(GAE仅允许这些http://code.google.com/appengine/docs/java/jrewhitelist.html)

我已经部分修改了一个非常旧的PdfBox版本(0.7.3),使其符合GAE。现在我可以从PDF (整个页面或矩形区域)中提取文本。我只修改了pdf文本提取的最小部分,而不是整个PdfBox。:)

这个想法是为了去掉对java.awt.retangle & C的引用。使用我自己的"rectangle“类。

更多信息:http://fhtino.blogspot.com/2010/04/pdfbox-text-extration-gae.html

票数 2
EN

Stack Overflow用户

发布于 2012-09-10 03:33:15

我修改了最新的(1.8.0-快照)版本,以便在谷歌AppEngine上运行。我不得不禁用一个单元测试,但它可以很好地运行于简单的文本提取。

按照简单的尝试-失败-修复方法,我总共修改了5个文件。非常可行。

您还必须显式地使用RandomAccessBuffer,就像Fabrizio解释的那样。

对于额外的惰性,这里是编译的jar、用于文本提取的依赖项和补丁。请注意,它可能并不适用于所有用例(例如,基于矩形的提取)。用它来提取整个页面的文本。https://docs.google.com/folder/d/0B53n_gP2oU6iVjhOOVBNZHk0a0E/edit

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2530152

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档