我使用Solr已经有一段时间了,最近我尝试了solr-cell组件,我正在索引一些PDF,但是我遇到了this thread中出现的完全相同的问题。
当我在管理控制台中搜索**时,列出了PDF。但是,当我在PDF中搜索内容时,没有得到任何结果。
我已经尝试了从答案中给出的命令没有运气,我仍然有同样的问题,我已经尝试了不同的Solr版本(我使用3.5btw),不同的schema.xml,我已经更改了schema.xml中的字段,我已经修改了solrconfig.xml中的RequestHandlers,但似乎什么都不起作用。如有任何帮助,我们将不胜感激。
发布于 2012-02-10 03:07:44
我终于让它工作了。事实证明,这是fmap.content输入参数的问题。我没有直接在solrconfig.xml文件的RequestHandler上声明它,而是在我用来索引solrconfig.xml文件的curl命令中传递了它:
curl 'http://localhost:8080/solr/solrcell/update/extract?map.content=text&map.stream_name=id&commit=true' -F "file=@mccm.pdf"我知道这种方式也应该有效,但正如您所看到的,这里有一个'map‘而不是'fmap’(我使用的是solr以前版本中的一个书本示例)。
我选择在solrconfig.xml文件中显式声明fmap输入参数,以避免出现任何问题:
<str name="fmap.content">text</str>
谢谢你的帮助。
https://stackoverflow.com/questions/9168674
复制相似问题