我想要一种机制来缓存/索引网站的html页面。因此,如果请求再次访问该页面,我可以简单地从缓存或索引中获取该页面并发送它。使用Solr可以吗?因为Solr似乎总是存储html的显示(文本)部分,而不是整个HTML Dom。有没有其他开源技术可以帮助我快速实现这一点?
发布于 2011-11-25 22:06:03
这个问题中有很多缺失的细节,但是关于Solr的问题的答案是肯定的,Solr可以很好地存储原始HTML。通常使用stored=为“true”的字段来检索原始的超文本标记语言,使用带有HTML filter的indexed="true“来保持文本可搜索。
https://stackoverflow.com/questions/8269796
复制相似问题