我已经成功地安装了Solr 1.4.1,但是我无法让Tika 0.4 (它包含在contrib/extraction中)正常工作。当我尝试命中http://localhost:8080/solr/ss/update/extract ("ss“是我的核心)时,我得到了一个404错误。
在Solr的WEB-INF目录中部署之后,我已经将所有contrib/提取jar文件以及"dist“目录中的"solr-cell”jar文件移到了该目录中。
我上面使用的方法适用于Solr 3.3,但是PDF解析在Tika 0.8中被破坏了,所以我决定恢复到Solr 1.4.1和Tika 0.4。
我正在使用Tomcat 7.0,如果这有帮助的话。
发布于 2011-07-22 22:32:40
我解决了这个问题。
我复制了多核目录(示例/多核中的“core0”和"core1“),它们使用的是非常精简的solrconfig.xml版本。我参考了默认的示例(位于example / Solr中),抓取了“更新/提取”的"requestHandler“部分,并将其放入我的solrconfig.xml的精简版本中,然后在Tomcat中重新启动了Solr web应用程序,现在文件解析可以完美地工作了。
我希望这对其他人有帮助。
发布于 2015-11-25 03:15:02
我一直在Solr 5.3.1中使用django_haystack,在定制schema.xml时遇到了同样的问题,我想补充一下Travis的答案。
您需要在solrconfig.xml中添加的行如下:
在lucene版本定义下
<luceneMatchVersion>5.3.1</luceneMatchVersion>添加这些库导入(我从示例文件中获取它们):
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/dataimporthandler/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/clustering/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-clustering-\d.*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/langid/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-langid-\d.*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/velocity/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-velocity-\d.*\.jar" />然后,在任何已定义的requestHandler附近添加/update/extract的requestHandler
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>我希望这能有所帮助。
https://stackoverflow.com/questions/6776355
复制相似问题