如何在Solr给出的结果中维护HTML文档的原始格式?
我试图在我的公司网站中提供搜索功能,该网站拥有数百万份文档,而且都没有类似的格式,因此很难单独格式化每个文档。
我在apache站点上使用Solr 4.1每晚构建,它内置了对solr-cell和tika的支持。也就是说,我不需要单独配置它们。
solr-单元格或tika是否在任何地方保留这些格式?
如果它不保留格式,那么我需要使用solr的resourcename字段从物理文件位置获取每个文档,并应用突出显示和其他solr现成的功能,但是这个过程太繁琐了。
编辑:如果我必须使用Jayendra在回答中建议的"HTMLStripCharFilterFactory“,我可以使用什么作为请求处理程序?此外,在这种情况下,我可以提取元数据标记吗?
有人能指点我吗?
谢谢大家的支持!
发布于 2013-02-08 10:56:13
带有Tika的Solr单元格不维护文档的原始格式。
您将只从通过Tika传送给Solr的文档中获取提取的文本。
否则,您必须将html文档作为普通Solr字段提供,并应用HTMLStripCharFilterFactory筛选器来维护这两个副本。
当stored=true时,Solr将使用HTML字段维护原始文档。
但是,对于Search (indexed=true),搜索只会发生在内容上,而不会发生在html元素上。
https://stackoverflow.com/questions/14770605
复制相似问题