首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Solr:排除某些HTML标记或仅在索引中包含某些标记

Solr:排除某些HTML标记或仅在索引中包含某些标记
EN

Stack Overflow用户
提问于 2013-03-05 06:44:40
回答 1查看 591关注 0票数 1

我目前正在使用Solr-Cell抓取几个html页面的内容并对它们进行索引。问题是我在标题中有一个菜单,它显示在所有页面上。此菜单及其所有项目都显示在搜索结果中。我不希望这个被编入索引。

您将如何实现这一点?

是否可以排除某些DIV (带有类名或id)?

EN

回答 1

Stack Overflow用户

发布于 2013-03-05 12:27:12

实际上,如果您进行测试,您将看到Tika在Solr中的使用方式,它剥离了大部分HTML,包括div、classes和ids属性。

因此,您可能无法获得所需的粒度,可能需要使用诸如RegexReplaceProcessorFactory UpdateRequestProcessor之类的工具通过与纯文本进行匹配来删除不需要的部分。

如果你直接从你的代码中调用Tika,你可以对它进行更多的控制,并且可以将IdentityHtmlMapper设置为不进行HTML过滤。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15212605

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档