我目前正在使用Solr-Cell抓取几个html页面的内容并对它们进行索引。问题是我在标题中有一个菜单,它显示在所有页面上。此菜单及其所有项目都显示在搜索结果中。我不希望这个被编入索引。
您将如何实现这一点?
是否可以排除某些DIV (带有类名或id)?
发布于 2013-03-05 12:27:12
实际上,如果您进行测试,您将看到Tika在Solr中的使用方式,它剥离了大部分HTML,包括div、classes和ids属性。
因此,您可能无法获得所需的粒度,可能需要使用诸如RegexReplaceProcessorFactory UpdateRequestProcessor之类的工具通过与纯文本进行匹配来删除不需要的部分。
如果你直接从你的代码中调用Tika,你可以对它进行更多的控制,并且可以将IdentityHtmlMapper设置为不进行HTML过滤。
https://stackoverflow.com/questions/15212605
复制相似问题