我们正在尝试设计一个文档推荐系统,其中文档不断更新。实际上,文档是通常附加文本的流。
最初我们计划使用lucene + solr。但这对于大多数静态documents.The来说是好的,lucene更新文档的方式是先删除它,然后重新索引它。因此,如果文档更新频繁,则随着语料库大小和平均文档大小的增加,上述方法会导致索引速度变慢。
我们也很想构建自己的解决方案,但在原型化之后放弃了,因为我们正在转向重新发明信息检索功能,这些功能在lucene中已经实现得相当好。有没有人有通过集成开源搜索和机器学习工具来构建这种系统的经验?
发布于 2015-03-24 23:35:14
为了更新文档中任何字段的值而不重新索引整个文档,可以使用DocValues。您可以在下面的博客http://shaierera.blogspot.com/2014/04/updatable-docvalues-under-hood.html中阅读有关DocValues的内容
https://stackoverflow.com/questions/29235701
复制相似问题