首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Solr能否保留HTML文档的格式,并在其结果中提供给它?

Solr能否保留HTML文档的格式,并在其结果中提供给它?
EN

Stack Overflow用户
提问于 2013-02-08 10:34:40
回答 1查看 789关注 0票数 0

如何在Solr给出的结果中维护HTML文档的原始格式?

我试图在我的公司网站中提供搜索功能,该网站拥有数百万份文档,而且都没有类似的格式,因此很难单独格式化每个文档。

我在apache站点上使用Solr 4.1每晚构建,它内置了对solr-cell和tika的支持。也就是说,我不需要单独配置它们。

solr-单元格或tika是否在任何地方保留这些格式?

如果它不保留格式,那么我需要使用solr的resourcename字段从物理文件位置获取每个文档,并应用突出显示和其他solr现成的功能,但是这个过程太繁琐了。

编辑:如果我必须使用Jayendra在回答中建议的"HTMLStripCharFilterFactory“,我可以使用什么作为请求处理程序?此外,在这种情况下,我可以提取元数据标记吗?

有人能指点我吗?

谢谢大家的支持!

EN

回答 1

Stack Overflow用户

发布于 2013-02-08 10:56:13

带有Tika的Solr单元格不维护文档的原始格式。

您将只从通过Tika传送给Solr的文档中获取提取的文本。

否则,您必须将html文档作为普通Solr字段提供,并应用HTMLStripCharFilterFactory筛选器来维护这两个副本。

当stored=true时,Solr将使用HTML字段维护原始文档。

但是,对于Search (indexed=true),搜索只会发生在内容上,而不会发生在html元素上。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14770605

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档