首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Solr 1.4.1和Tika 0.4上获得/solr/update/extract的404

在Solr 1.4.1和Tika 0.4上获得/solr/update/extract的404
EN

Stack Overflow用户
提问于 2011-07-21 20:55:07
回答 2查看 1.7K关注 0票数 2

我已经成功地安装了Solr 1.4.1,但是我无法让Tika 0.4 (它包含在contrib/extraction中)正常工作。当我尝试命中http://localhost:8080/solr/ss/update/extract ("ss“是我的核心)时,我得到了一个404错误。

在Solr的WEB-INF目录中部署之后,我已经将所有contrib/提取jar文件以及"dist“目录中的"solr-cell”jar文件移到了该目录中。

我上面使用的方法适用于Solr 3.3,但是PDF解析在Tika 0.8中被破坏了,所以我决定恢复到Solr 1.4.1和Tika 0.4。

我正在使用Tomcat 7.0,如果这有帮助的话。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-07-22 22:32:40

我解决了这个问题。

我复制了多核目录(示例/多核中的“core0”和"core1“),它们使用的是非常精简的solrconfig.xml版本。我参考了默认的示例(位于example / Solr中),抓取了“更新/提取”的"requestHandler“部分,并将其放入我的solrconfig.xml的精简版本中,然后在Tomcat中重新启动了Solr web应用程序,现在文件解析可以完美地工作了。

我希望这对其他人有帮助。

票数 2
EN

Stack Overflow用户

发布于 2015-11-25 03:15:02

我一直在Solr 5.3.1中使用django_haystack,在定制schema.xml时遇到了同样的问题,我想补充一下Travis的答案。

您需要在solrconfig.xml中添加的行如下:

在lucene版本定义下

代码语言:javascript
复制
<luceneMatchVersion>5.3.1</luceneMatchVersion>

添加这些库导入(我从示例文件中获取它们):

代码语言:javascript
复制
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/dataimporthandler/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/clustering/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-clustering-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/langid/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-langid-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/velocity/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-velocity-\d.*\.jar" />

然后,在任何已定义的requestHandler附近添加/update/extractrequestHandler

代码语言:javascript
复制
<requestHandler name="/update/extract"
  startup="lazy"
  class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults">
    <str name="lowernames">true</str>
    <str name="uprefix">ignored_</str>

    <!-- capture link hrefs but ignore div attributes -->
    <str name="captureAttr">true</str>
    <str name="fmap.a">links</str>
    <str name="fmap.div">ignored_</str>
  </lst>
</requestHandler>

我希望这能有所帮助。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6776355

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档