首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用pdfclown函数“textextractor”提取文本

使用pdfclown函数“textextractor”提取文本
EN

Stack Overflow用户
提问于 2013-05-15 18:23:29
回答 1查看 2K关注 0票数 0

我收到一个错误,当使用pdfclown库的textextractor时。我使用的代码是

代码语言:javascript
复制
TextExtractor textExtractor = new TextExtractor(true, true);
for(final Page page : file.getDocument().getPages())
{
  System.out.println("\nScanning page " + (page.getIndex()+1) + "...\n");

  //  Extract the page text!
  Map textStrings = textExtractor.extract(page);

我所犯错误的一部分是

代码语言:javascript
复制
exception in thread 'main' java.lang.exceptionininitializer error
at org.pdfclown.document.contents.fonts.encoding.put
at ......
at ......
<about 30 such lines>
caused by java.lang.nullpointerexception
at java.io.reader.<init><Reader.java:78>
at java.io.inputstreamreader
<about 30 lines more>

我还发现,当我的pdf包含一些子弹时,就会发生这种情况。

  • 项目1
  • 项目2
  • 项目3

请帮助我从这样的pdfs中提取文本。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-20 09:19:10

(以下评论是解决办法:)

使用您的highlighter.java类(在注释中提供了在你的谷歌硬盘上 )和当前PDF主干版本作为jar,可以在没有意外情况下处理PDF,特别是没有NullPointerException (但是高亮部分不在正确位置)。

但是,在查看了共享的google驱动器内容之后,我认为您没有使用PDF,而只是从分发源文件夹编译类并使用它们。

但是,PDF文件包含额外的重新源,但您的设置必然不包括这些资源。因此:

您的highlighter.java必须与类路径中的pdfclown.jar一起使用。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16572369

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档