有没有免费的Java库可以从PDF中提取文本,与Google应用程序引擎兼容?
我读过关于PDFJet的文章,但是它不能读PDF,是吗?
有没有其他方法可以从PDF中提取文本?我试过http://www.pdfdownload.org/,不幸的是他们不能正确处理非英文字符。
发布于 2010-03-28 06:15:24
iText现在有一个文本解析模块(我是解析器的作者之一)。有关如何使用它的示例,请参阅com.itextpdf.text.pdf.parser.PdfContentReaderTool类。
发布于 2010-04-16 21:48:28
PdfBox不能在GAE上运行。它使用了不允许的java类。
(GAE仅允许这些http://code.google.com/appengine/docs/java/jrewhitelist.html)
我已经部分修改了一个非常旧的PdfBox版本(0.7.3),使其符合GAE。现在我可以从PDF (整个页面或矩形区域)中提取文本。我只修改了pdf文本提取的最小部分,而不是整个PdfBox。:)
这个想法是为了去掉对java.awt.retangle & C的引用。使用我自己的"rectangle“类。
更多信息:http://fhtino.blogspot.com/2010/04/pdfbox-text-extration-gae.html
发布于 2012-09-10 03:33:15
我修改了最新的(1.8.0-快照)版本,以便在谷歌AppEngine上运行。我不得不禁用一个单元测试,但它可以很好地运行于简单的文本提取。
按照简单的尝试-失败-修复方法,我总共修改了5个文件。非常可行。
您还必须显式地使用RandomAccessBuffer,就像Fabrizio解释的那样。
对于额外的惰性,这里是编译的jar、用于文本提取的依赖项和补丁。请注意,它可能并不适用于所有用例(例如,基于矩形的提取)。用它来提取整个页面的文本。https://docs.google.com/folder/d/0B53n_gP2oU6iVjhOOVBNZHk0a0E/edit
https://stackoverflow.com/questions/2530152
复制相似问题