文章/答案/技术大牛

发布

社区首页 >问答首页 >Solr能否保留HTML文档的格式，并在其结果中提供给它？

问Solr能否保留HTML文档的格式，并在其结果中提供给它？
EN

Stack Overflow用户

提问于 2013-02-08 10:34:40

回答 1查看 789关注 0票数 0

如何在Solr给出的结果中维护HTML文档的原始格式？

我试图在我的公司网站中提供搜索功能，该网站拥有数百万份文档，而且都没有类似的格式，因此很难单独格式化每个文档。

我在apache站点上使用Solr 4.1每晚构建，它内置了对solr-cell和tika的支持。也就是说，我不需要单独配置它们。

solr-单元格或tika是否在任何地方保留这些格式？

如果它不保留格式，那么我需要使用solr的resourcename字段从物理文件位置获取每个文档，并应用突出显示和其他solr现成的功能，但是这个过程太繁琐了。

编辑:如果我必须使用Jayendra在回答中建议的"HTMLStripCharFilterFactory“，我可以使用什么作为请求处理程序？此外，在这种情况下，我可以提取元数据标记吗？

有人能指点我吗？

谢谢大家的支持！

solr

solrj

apache-tika

solr-cell

回答 1

Stack Overflow用户

发布于 2013-02-08 10:56:13

带有Tika的Solr单元格不维护文档的原始格式。

您将只从通过Tika传送给Solr的文档中获取提取的文本。

否则，您必须将html文档作为普通Solr字段提供，并应用HTMLStripCharFilterFactory筛选器来维护这两个副本。

当stored=true时，Solr将使用HTML字段维护原始文档。

但是，对于Search (indexed=true)，搜索只会发生在内容上，而不会发生在html元素上。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14770605

复制

相似问题

问Solr能否保留HTML文档的格式，并在其结果中提供给它？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Solr能否保留HTML文档的格式，并在其结果中提供给它？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Solr能否保留HTML文档的格式，并在其结果中提供给它？
EN