首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分析pdf文档时出现Grobid抛出错误的Tika

分析pdf文档时出现Grobid抛出错误的Tika
EN

Stack Overflow用户
提问于 2020-07-16 18:29:51
回答 1查看 184关注 0票数 1

我正在尝试从pdf文档中提取文档元数据和日志标题元数据。我验证了Tika Server (v1.21 / v1.24)和Grobid (v0.6.0)能够独立地从pdf文档中提取元数据。然而,当我在Tika Server中运行Grobid (遵循https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的指令)时,我得到相同pdf文档的以下错误(代码片段):

代码语言:javascript
复制
org.xml.sax.SAXParseException; Premature end of file.
        at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
        at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
        at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:121)
        at org.apache.tika.utils.XMLReaderUtils.buildDOM(XMLReaderUtils.java:407)
        at org.apache.tika.parser.journal.TEIDOMParser.parse(TEIDOMParser.java:44)
        at org.apache.tika.parser.journal.GrobidRESTParser.parse(GrobidRESTParser.java:85)
        at org.apache.tika.parser.journal.JournalParser.parse(JournalParser.java:60)
        at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:188)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
        at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:188)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:143)
        at org.apache.tika.parser.RecursiveParserWrapper.parse(RecursiveParserWrapper.java:224)
        at org.apache.tika.server.resource.TikaResource.parse(TikaResource.java:422)
    .... 

我使用Grobid运行以下命令来启动Tika Server:

代码语言:javascript
复制
java -classpath /home/avlurs/grobid-0.6.0/grobidparser-resources/:tika-server-1.21.jar org
.apache.tika.server.TikaServerCli --config /home/avlurs/grobid-0.6.0/grobidparser-resources/tika-config.xml &

我运行以下命令来测试元数据提取:

代码语言:javascript
复制
curl -T /home/avlurs/temp/in/JournalTest.pdf -H "Content-Disposition: attachment;filename=
JournalTest.pdf" http://localhost:9998/rmeta

除了抛出上面提到的错误之外,我还在输出中从Tika获取文档元数据。但是,Grobid元数据没有被提取出来。

感谢您为解决此问题而提供的任何意见/建议。谢谢。

EN

回答 1

Stack Overflow用户

发布于 2020-11-10 08:19:16

Grobid服务在2017年7月将其API端点的位置更新为/api下,但GrobidParser没有更新以使用新位置。

我刚刚提交了一个修复,作为TIKA-3191的一部分,它将在Tika 1.25中发布。我们希望在接下来的几周内发布,但在此之前,您可以使用源代码构建或快照构建。

我还计划更新Tika,以获得更多最新的说明,解释如何使用当前的GrobidParser Wiki Page构建和Docker镜像选项。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62932722

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档