本文档部分说明可以使用专用配置文件:https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika配置Apache。
<str name="tika.config">/my/path/to/tika.config</str>显而易见的问题是--在哪里可以找到示例tika.config和如何修改它的说明?
我的目标是什么?,我想将Tika配置为不解析媒体文件内容
发布于 2017-10-12 11:09:50
您必须在solrconfig.xml文件中添加这一行
<lib dir="../../../../contrib/extraction/lib/" regex="tika-core-\d.*\.jar" />
<lib dir="../../../../contrib/extraction/lib/" regex="tika-parsers-\d.*\.jar" />再加上这一行
**<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="fmap.meta">ignored_</str>
<str name="fmap.content">_text_</str>
<str name="capture">body</str>
</lst>
<str name="tika.config">**html-config.xml**</str>
</requestHandler>**html-config.xml文件必须位于conf目录中,并包含从这里看到的内容( https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/html/tika-config.xml )。
https://stackoverflow.com/questions/21451881
复制相似问题