文章/答案/技术大牛

发布

社区首页 >问答首页 >在Solr 1.4.1和Tika 0.4上获得/solr/update/extract的404

问在Solr 1.4.1和Tika 0.4上获得/solr/update/extract的404
EN

Stack Overflow用户

提问于 2011-07-21 20:55:07

回答 2查看 1.7K关注 0票数 2

我已经成功地安装了Solr 1.4.1，但是我无法让Tika 0.4 (它包含在contrib/extraction中)正常工作。当我尝试命中http://localhost:8080/solr/ss/update/extract ("ss“是我的核心)时，我得到了一个404错误。

在Solr的WEB-INF目录中部署之后，我已经将所有contrib/提取jar文件以及"dist“目录中的"solr-cell”jar文件移到了该目录中。

我上面使用的方法适用于Solr 3.3，但是PDF解析在Tika 0.8中被破坏了，所以我决定恢复到Solr 1.4.1和Tika 0.4。

我正在使用Tomcat 7.0，如果这有帮助的话。

tomcat

solr

apache-tika

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-07-22 22:32:40

我解决了这个问题。

我复制了多核目录(示例/多核中的“core0”和"core1“)，它们使用的是非常精简的solrconfig.xml版本。我参考了默认的示例(位于example / Solr中)，抓取了“更新/提取”的"requestHandler“部分，并将其放入我的solrconfig.xml的精简版本中，然后在Tomcat中重新启动了Solr web应用程序，现在文件解析可以完美地工作了。

我希望这对其他人有帮助。

票数 2

Stack Overflow用户

发布于 2015-11-25 03:15:02

我一直在Solr 5.3.1中使用django_haystack，在定制schema.xml时遇到了同样的问题，我想补充一下Travis的答案。

您需要在solrconfig.xml中添加的行如下：

在lucene版本定义下

<luceneMatchVersion>5.3.1</luceneMatchVersion>

添加这些库导入(我从示例文件中获取它们)：

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/dataimporthandler/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/clustering/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-clustering-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/langid/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-langid-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/velocity/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-velocity-\d.*\.jar" />

然后，在任何已定义的requestHandler附近添加/update/extract的requestHandler

<requestHandler name="/update/extract"
  startup="lazy"
  class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults">
    <str name="lowernames">true</str>
    <str name="uprefix">ignored_</str>

    <!-- capture link hrefs but ignore div attributes -->
    <str name="captureAttr">true</str>
    <str name="fmap.a">links</str>
    <str name="fmap.div">ignored_</str>
  </lst>
</requestHandler>

我希望这能有所帮助。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6776355

复制

相似问题

问在Solr 1.4.1和Tika 0.4上获得/solr/update/extract的404
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Solr 1.4.1和Tika 0.4上获得/solr/update/extract的404EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Solr 1.4.1和Tika 0.4上获得/solr/update/extract的404
EN