首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Apache SolR中索引pdf / word文档

如何在Apache SolR中索引pdf / word文档
EN

Stack Overflow用户
提问于 2016-08-11 10:15:52
回答 1查看 5.7K关注 0票数 3

我对大数据环境并不熟悉,因此如果下面的查询毫无意义,我会先道歉。

我想读一个word / pdf文档,并在SolR中索引这些文档。据我所知,SolR接受JSON或XML格式,而不是word / pdf /txt文件。在将文档发送到SolR之前,是否需要将word / pdf文档转换为JSON或XML?我最初认为我应该使用Tika,但我的理解是,Tika可以将pdf转换为text,而不是JSON。

请你指导如何在Solr中索引好吗?

谢谢你的帮助

EN

回答 1

Stack Overflow用户

发布于 2016-08-11 11:53:44

索引“富文件”的标准端点位于update/extract,因此如果您将文件发布到该目的地,Solr将在内部运行它,提取文本和属性。您可以通过带有literal.fieldname=value参数的URL (例如ID、文件名、其他元数据)提供文字值。

手册中的使用Apache向Solr单元上传数据描述向您介绍了如何通过HTTP提交带有curl的文档,以及需要哪些配置选项来启用自动提取(在几个示例(数据驱动,技术产品iirc)上启用):

如果没有使用提供的sample_techproducts_configs或data_driven_schema_configs配置集,则必须配置自己的solrconfig.xml以了解包含ExtractingRequestHandler的Jar及其依赖关系:

代码语言:javascript
复制
<lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" />`
<lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />

然后可以在ExtractingRequestHandler中配置solrconfig.xml。

代码语言:javascript
复制
<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler">
  <lst name="defaults">
    <str name="fmap.Last-Modified">last_modified</str>
    <str name="uprefix">ignored_</str>
  </lst>
  <!--Optional.  Specify a path to a tika configuration file. See the Tika docs for details.-->
  <str name="tika.config">/my/path/to/tika.config</str>
  <!-- Optional. Specify one or more date formats to parse. See DateUtil.DEFAULT_DATE_FORMATS
       for default date formats -->
  <lst name="date.formats">
    <str>yyyy-MM-dd</str>
  </lst>
  <!-- Optional. Specify an external file containing parser-specific properties.
       This file is located in the same directory as solrconfig.xml by default.-->
  <str name="parseContext.config">parseContext.xml</str>
</requestHandler>
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38893512

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档