文章/答案/技术大牛

发布

社区首页 >问答首页 >使用pdfclown函数“textextractor”提取文本

问使用pdfclown函数“textextractor”提取文本
EN

Stack Overflow用户

提问于 2013-05-15 18:23:29

回答 1查看 2K关注 0票数 0

我收到一个错误，当使用pdfclown库的textextractor时。我使用的代码是

TextExtractor textExtractor = new TextExtractor(true, true);
for(final Page page : file.getDocument().getPages())
{
  System.out.println("\nScanning page " + (page.getIndex()+1) + "...\n");

  //  Extract the page text!
  Map textStrings = textExtractor.extract(page);

我所犯错误的一部分是

exception in thread 'main' java.lang.exceptionininitializer error
at org.pdfclown.document.contents.fonts.encoding.put
at ......
at ......
<about 30 such lines>
caused by java.lang.nullpointerexception
at java.io.reader.<init><Reader.java:78>
at java.io.inputstreamreader
<about 30 lines more>

我还发现，当我的pdf包含一些子弹时，就会发生这种情况。

项目1
项目2
项目3

请帮助我从这样的pdfs中提取文本。

java

pdf

pdfclown

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-20 09:19:10

(以下评论是解决办法：)

使用您的highlighter.java类(在注释中提供了在你的谷歌硬盘上 )和当前PDF主干版本作为jar，可以在没有意外情况下处理PDF，特别是没有NullPointerException (但是高亮部分不在正确位置)。

但是，在查看了共享的google驱动器内容之后，我认为您没有使用PDF，而只是从分发源文件夹编译类并使用它们。

但是，PDF文件包含额外的重新源，但您的设置必然不包括这些资源。因此：

您的highlighter.java必须与类路径中的pdfclown.jar一起使用。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16572369

复制

相似问题

问使用pdfclown函数“textextractor”提取文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用pdfclown函数“textextractor”提取文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用pdfclown函数“textextractor”提取文本
EN