我用Solr索引期刊文章。使用开箱即用的配置,它将文档的文本编入索引,但我希望使用Grobid来提取作者、标题、附属机构等。
我加了
<str name="tika.config">/path/to/tika-config.xml</str>
到requestHandler的solrconfig.xml中的/update/提取
tika-config看起来如下:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>当我试图导入一个文档时,我得到了一个ClassNotFound异常,但是无法确定在哪里设置类路径来修复它。
发布于 2016-05-11 13:21:12
正如Solr用户列表中所提到的,Solr的最新版本(6.0.0)使用的是一个版本的Tika (1.7),该版本早于permalink的添加(在Tika 1.11中出现)。要继续升级到Tika 1.13,请参见SOLR-8981
https://stackoverflow.com/questions/37028585
复制相似问题