我收到一个错误,当使用pdfclown库的textextractor时。我使用的代码是
TextExtractor textExtractor = new TextExtractor(true, true);
for(final Page page : file.getDocument().getPages())
{
System.out.println("\nScanning page " + (page.getIndex()+1) + "...\n");
// Extract the page text!
Map textStrings = textExtractor.extract(page);我所犯错误的一部分是
exception in thread 'main' java.lang.exceptionininitializer error
at org.pdfclown.document.contents.fonts.encoding.put
at ......
at ......
<about 30 such lines>
caused by java.lang.nullpointerexception
at java.io.reader.<init><Reader.java:78>
at java.io.inputstreamreader
<about 30 lines more>我还发现,当我的pdf包含一些子弹时,就会发生这种情况。
请帮助我从这样的pdfs中提取文本。
发布于 2013-05-20 09:19:10
(以下评论是解决办法:)
使用您的highlighter.java类(在注释中提供了在你的谷歌硬盘上 )和当前PDF主干版本作为jar,可以在没有意外情况下处理PDF,特别是没有NullPointerException (但是高亮部分不在正确位置)。
但是,在查看了共享的google驱动器内容之后,我认为您没有使用PDF,而只是从分发源文件夹编译类并使用它们。
但是,PDF文件包含额外的重新源,但您的设置必然不包括这些资源。因此:
您的highlighter.java必须与类路径中的pdfclown.jar一起使用。
https://stackoverflow.com/questions/16572369
复制相似问题